Wetenschap
Krediet:CC0 Publiek Domein
Een onderzoeksteam onder leiding van Luis Amaral van Northwestern Engineering heeft een algoritmische benadering ontwikkeld voor gegevensanalyse die automatisch niet-informatieve woorden - ook wel stopwoorden genoemd - in een grote tekstverzameling herkent. De bevindingen kunnen aanzienlijk tijd besparen tijdens de verwerking van natuurlijke taal en de energievoetafdruk verkleinen.
"Een van de uitdagingen bij benaderingen van machine learning en kunstmatige intelligentie is dat je niet weet welke gegevens nuttig zijn voor een algoritme en welke niet, " zei Amaral, Erastus Otis Haven hoogleraar chemische en biologische technologie aan de McCormick School of Engineering. "Met behulp van informatietheorie, we hebben een raamwerk gecreëerd dat onthult welke woorden niet informatief zijn voor de taak die voorhanden is."
Het probleem met stopwoorden
Een van de meest gebruikte technieken die datawetenschappers gebruiken bij de verwerking van natuurlijke taal is het bag-of-words-model, die de woorden in een bepaalde tekst analyseert zonder rekening te houden met de volgorde waarin ze voorkomen. Om het proces te stroomlijnen, onderzoekers filteren stopwoorden uit, die geen context toevoegen aan de gegevensanalyse. Veel stopwoordenlijsten worden handmatig samengesteld door onderzoekers, waardoor ze tijdrovend zijn om te ontwikkelen en te onderhouden en moeilijk te generaliseren over talen en disciplines heen.
"Stel je voor dat je miljoenen blogposts analyseert en wilt weten welk onderwerp elk bericht behandelt, " zei Amaral, die mededirecteur is van het Northwestern Institute on Complex Systems. "Normaal zou je gewone woorden als 'de' en 'jij' eruit filteren, ' die geen achtergrond over het onderwerp geven."
Echter, de meeste woorden die niet nuttig zijn voor die specifieke taak, zijn afhankelijk van de taal en het specifieke onderwerp van de blog. "Voor een verzameling blogs over elektronica, bijvoorbeeld, er zijn veel woorden waarmee een algoritme niet kan bepalen of een blogpost over kwantumcomputers of halfgeleiders gaat, " hij voegde toe.
Een informatietheoretisch kader
Het onderzoeksteam gebruikte informatietheorie om een model te ontwikkelen dat nauwkeuriger en efficiënter stopwoorden identificeert. Centraal in het model staat een 'voorwaardelijke entropie'-metriek die de zekerheid kwantificeert dat een bepaald woord informatief is. Hoe informatiever het woord, hoe lager de voorwaardelijke entropie. Door de waargenomen en verwachte waarden van voorwaardelijke entropie te vergelijken, de onderzoekers konden de informatie-inhoud van bepaalde woorden meten.
Om het model te testen, de onderzoekers vergeleken de prestaties met gangbare benaderingen voor onderwerpmodellering, die de woorden afleidt die het meest gerelateerd zijn aan een bepaald onderwerp door ze te vergelijken met andere tekst in de dataset. Dit raamwerk zorgde voor een verbeterde nauwkeurigheid en reproduceerbaarheid in de bestudeerde teksten, terwijl het ook op een eenvoudige manier meer van toepassing is op andere talen. Aanvullend, het systeem behaalde optimale prestaties met aanzienlijk minder gegevens.
“Met onze aanpak, we zouden 80 procent of meer van de gegevens kunnen filteren en de prestaties van bestaande algoritmen voor onderwerpclassificatie van tekstcorpora daadwerkelijk kunnen verbeteren, "Zei Amaral. "Bovendien, door zoveel gegevens te filteren, we zijn in staat om de hoeveelheid benodigde computerbronnen drastisch te verminderen."
Behalve tijd besparen, het filtersysteem kan leiden tot energiebesparingen op de lange termijn, het bestrijden van de negatieve impact van grootschalige computergebruik op klimaatverandering.
Een paper waarin het werk wordt beschreven, werd op 2 december gepubliceerd in het tijdschrift Natuur Machine Intelligentie . Amaral was een co-corresponderende auteur op het papier samen met Martin Gerlach, een postdoctoraal onderzoeker in het laboratorium van Amaral.
Hoewel de analyse van de onderzoekers beperkt was tot woordenschatbenaderingen, Amaral is ervan overtuigd dat zijn systeem kan worden uitgebreid om rekening te houden met extra structurele kenmerken van taal, inclusief zinnen en alinea's.
In aanvulling, aangezien de informatietheorie een algemeen kader biedt voor de analyse van elke reeks symbolen, het systeem van de onderzoekers zou toepasbaar kunnen zijn buiten tekstanalyse, ondersteunende pre-processing methoden voor het analyseren van audio, afbeeldingen, zelfs genen.
"We zijn begonnen deze benadering toe te passen op de analyse van gegevens van experimenten die genspecifieke RNA-moleculen in individuele cellen meten als een manier om automatisch verschillende celtypen te identificeren, "Zei Gerlach. "Het filteren van niet-informatieve genen - beschouw ze als 'stopgenen' - is bijzonder veelbelovend om de nauwkeurigheid te vergroten. Die metingen zijn veel moeilijker in vergelijking met teksten en de huidige heuristieken zijn lang niet zo goed ontwikkeld."
Wetenschap © https://nl.scienceaq.com