science >> Wetenschap >  >> anders

Analyse van miljarden Twitter-woorden onthult hoe Amerikaans Engels zich ontwikkelt

Krediet:CC0 Publiek Domein

Taalkundigen en geografen analyseerden 8,9 miljard woorden in 980 miljoen tweets die tussen 2013 en 2014 in de Verenigde Staten zijn gepost om de regio's te identificeren waaruit nieuwe woorden meestal afkomstig zijn.

Onder leiding van professor Jack Grieve, van het Centre for Corpus Research aan de Universiteit van Birmingham, onderzoekers gebruikten geavanceerde computertechnologie om de geocodeerde Tweets te analyseren die de exacte lengte- en breedtegraad van de gebruiker op het moment van plaatsing onthulden.

Ze volgden de oorsprong van 54 nieuw opkomende woorden in het Amerikaans-Engels. Bijvoorbeeld, ze ontdekten dat het woord 'baeless', wat betekent 'alleenstaand zijn', afkomstig uit het diepe zuiden, terwijl het woord 'wederzijds', wat een afkorting is voor 'wederzijdse vrienden', afkomstig van de westkust.

Dankzij geo-gecodeerde gegevens van Twitter konden ze kaarten maken voor deze 54 woorden, laten zien hoe de uitdrukkingen zich in de loop van de tijd over het land hadden verspreid.

Moderne computationele technieken toepassen op de studie van taalvariatie en -verandering, het team ontdekte dat de ontwikkeling van nieuwe woorden in Modern Amerikaans Engels zich concentreerde op vijf regio's:de westkust, het noordoosten, het midden van de Atlantische Oceaan, het diepe zuiden, en de Golfkust.

Professor Grieve merkte op:"Dit is de eerste keer dat zo'n grote steekproef van opkomende woorden of enige vorm van taalkundige innovatie in één taal in kaart is gebracht. Twitter is slechts één taalvariant, maar aangezien bijna al deze woorden worden gebruikt in de dagelijkse spraak, we geloven dat onze resultaten de algemene verspreiding van woorden in Amerikaans Engels weerspiegelen.

"Onze studie biedt een kader voor toekomstig onderzoek door te laten zien hoe de oorsprong en verspreiding van opkomende woorden kan worden gemeten en in kaart gebracht. Taalkunde verschuift van een sociale wetenschap naar een datawetenschap, waar taalkundigen in toenemende mate enorme hoeveelheden natuurlijke taal analyseren die online zijn verzameld.

"Dit stelt ons in staat om nieuwe onderzoeksvragen na te streven die een paar jaar geleden onmogelijk te onderzoeken waren. We kunnen tot in de kleinste details analyseren hoe taal in korte tijd verandert en de processen begrijpen waardoor talen evolueren - een van de meest uitdagende vragen in de wetenschap."

De bevindingen van de onderzoekers dagen ook bestaande theorieën over de verspreiding van nieuwe woorden uit. Ze laten zien dat nieuwe woorden zich niet zomaar vanuit hun bron verspreiden, ze verspreiden zich ook niet van de ene grote stad naar de andere, zoals voorspeld door eerder ontwikkelde theorieën voor de verspreiding van nieuwe woorden, bekend als de 'golf'- en 'zwaartekracht'-modellen.

In plaats daarvan, de studie wees uit dat de verspreiding van nieuwe woorden wordt beperkt door culturele patronen. Nieuwe woorden hebben de neiging zich te verspreiden binnen culturele regio's, alvorens de rest van de Verenigde Staten te bereiken. Het ontdekte ook dat Afrikaans-Amerikaans Engels een belangrijke bron van lexicale innovatie was op de Amerikaanse Twitter.

Professor Grieve spreekt over het onderzoek van het team op de New Ways of Analyzing Variation (NWAV)-conferentie die van 18 tot 21 oktober aan de New York University wordt gehouden. Hij zal zich concentreren op hoe deze woorden zich in de betreffende periode in New York City hebben verspreid, evenals het geven van een workshop over 'computationele sociolinguïstiek'.