science >> Wetenschap >  >> anders

Onderzoek naar het gebruik van rekbare woorden op sociale media

De boom van het lachen. Deze spellingsboom voor uitgerekte versies van het woord 'ha' laat veel van de verschillende manieren zien waarop deze woorden worden gespeld als ze worden uitgerekt. De patronen van de boom vertegenwoordigen de spelling van de woorden, met de initiaal 'h' aan de wortel, en de volgende letters vertakken naar rechts voor een 'a' en naar links voor een 'h'. Dikkere paden vertegenwoordigen meer dominante patronen, met veel woorden die na een paar vertakkingen stoppen bij een intern knooppunt. Enkele van de langere patronen die een eindknooppunt bereiken, zijn geannoteerd met sterren. De inzetplot laat zien hoe vaak verschillende uitgerekte versies van 'ha' zijn gebaseerd op hoe lang ze zijn uitgerekt. Een paar punten zijn geannoteerd met voorbeeld uitgerekte versies van die lengte, maar de punt vertegenwoordigt alle uitgerekte versies van die lengte. Punten voor een even aantal tekens zijn meestal hoger vanwege de neiging om 'h' en 'a' perfect af te wisselen zoals in 'hahaha...'. Krediet:Gray et al, 2020

Een onderzoek van Twitter-berichten onthult nieuwe inzichten en hulpmiddelen om te bestuderen hoe mensen uitgerekte woorden gebruiken, zoals "duuuuude, " "heyyyy, " of "noooooooo." Tyler Gray en collega's van de Universiteit van Vermont in Burlington presenteren deze bevindingen in het open-access tijdschrift PLOS EEN op 27 mei, 2020.

In gesproken en geschreven taal, uitgerekte woorden kunnen de betekenis van een woord wijzigen. Bijvoorbeeld, "suuuuure" kan sarcasme inhouden, terwijl "yeeessss" op opwinding kan duiden. Uitgestrekte woorden zijn zeldzaam in formeel schrijven, maar de opkomst van sociale media heeft nieuwe mogelijkheden geopend om ze te bestuderen.

Gray en collega's hebben nu het meest uitgebreide onderzoek naar 'rekbare' woorden op sociale media tot nu toe voltooid. Ze ontwikkelden een nieuwe, grondiger strategie voor het identificeren van uitgerekte woorden in tweets en gebruikte deze om een ​​willekeurig geselecteerde dataset te analyseren van ongeveer 10 procent van alle tweets die tussen september 2008 en december 2016 werden gegenereerd, in totaal ongeveer 100 miljard tweets.

De onderzoekers identificeerden duizenden "rekbare" woorden in de tweets, inclusief "ha" (bijv. "hahaha" of "haahaha"), "geweldig" (bijv. "awesssssommmmmeeeeee") en "goal) (bijv. ggggoooooaaaallllll).

Ze identificeerden ook twee belangrijke manieren om de kenmerken van rekbare woorden te meten:balans en rek. Balans verwijst naar de mate waarin verschillende letters de neiging hebben om te worden herhaald. Bijvoorbeeld, "ha" heeft een hoge mate van evenwicht omdat wanneer het wordt uitgerekt, de "h" en de "a" worden ongeveer even vaak herhaald. "Doel" is minder evenwichtig, met "o" meer herhaald dan enige andere letter in het woord.

Stretch verwijst naar hoe lang een woord de neiging heeft om uitgerekt te worden. Bijvoorbeeld, korte woorden of geluiden als "ha" hebben een hoge mate van rekbaarheid omdat mensen ze vaak vaak herhalen (bijv. "hahahahahahahaha"). In de tussentijd, gewone woorden zoals "oneindig" hebben een lagere rek, vaak met slechts één letter herhaald:"infinityyyy."

Voor deze analyse is de onderzoekers ontwikkelden verschillende tools en methoden die kunnen worden gebruikt in toekomstig onderzoek naar rekbare woorden, zoals onderzoek naar typefouten en spelfouten. De tools kunnen ook worden toegepast om de verwerking van natuurlijke taal te verbeteren, zoekmachines, en spamfilters

De auteurs voegen toe:"We waren in staat om uitgerekte woorden zoals 'gooooooaaaalll' en 'hahahaha' uitgebreid te verzamelen en te tellen, en breng ze in kaart over de twee dimensies van algehele rekbaarheid en balans van rek, terwijl ze nieuwe hulpmiddelen ontwikkelen die ook zullen helpen bij hun voortgezette taalstudie, en op andere gebieden, zoals taalverwerking, woordenboeken aanvullen, zoekmachines verbeteren, het analyseren van de constructie van sequenties, en meer."