Wetenschap
Krediet:CC0 Publiek Domein
Dankzij een vruchtbare samenwerking tussen taalwetenschappers en machine learning-specialisten, een nieuwe applicatie ontwikkeld door onderzoekers van de University of Eastern Finland en Linnaeus University in Zweden kan Twitter-bots detecteren, onafhankelijk van de gebruikte taal.
In recente jaren, big data van verschillende sociale-mediatoepassingen hebben het web op een steeds groter aantal gebieden veranderd in een door gebruikers gegenereerde opslagplaats van informatie. Vanwege de relatief gemakkelijke toegang tot tweets en hun metadata, Twitter is een populaire gegevensbron geworden voor onderzoek naar een aantal fenomenen. Waaronder, bijvoorbeeld, verschillende politieke campagnes, sociale en politieke omwentelingen, Twitter als hulpmiddel voor noodcommunicatie, en het gebruik van gegevens van sociale media om beurskoersen te voorspellen.
Echter, onderzoek met data uit social media data wordt vaak vertekend door de aanwezigheid van bots. Bots zijn niet-persoonlijke en geautomatiseerde accounts die inhoud plaatsen op online sociale netwerken. De populariteit van Twitter als instrument in het publieke debat heeft ertoe geleid dat het een ideaal doelwit is geworden van spammers en geautomatiseerde scripts. Geschat wordt dat ongeveer 5-10% van alle gebruikers bots zijn, en dat deze accounts ongeveer 20-25% van alle geposte tweets genereren.
Onderzoekers van de digitale geesteswetenschappen aan de Universiteit van Oost-Finland en de Linnaeus Universiteit in Zweden hebben een nieuwe applicatie ontwikkeld die afhankelijk is van machine learning om Twitter-bots te detecteren. De applicatie kan automatisch gegenereerde tweets detecteren, onafhankelijk van de gebruikte taal. De onderzoekers vingen voor analyse in totaal 15, 000 tweets in het Fins, Zweeds en Engels. Fins en Zweeds werden voornamelijk gebruikt voor training, terwijl tweets in het Engels werden gebruikt om de taalonafhankelijkheid van de applicatie te evalueren. De applicatie is licht, waardoor het mogelijk wordt om grote hoeveelheden data snel en relatief efficiënt te classificeren.
"Dit verbetert de kwaliteit van gegevens - en geeft een nauwkeuriger beeld van de realiteit, " Professor Engels Mikko Laitinen van de Universiteit van Oost-Finland merkt op.
Volgens professor Laitinen, bots zijn relatief ongevaarlijk, terwijl trollen kwaad doen als ze nepnieuws verspreiden en met verzonnen verhalen komen. Daarom is er behoefte aan steeds geavanceerdere tools voor monitoring van sociale media.
"Dit is een complexe kwestie en vereist interdisciplinaire benaderingen. wij taalkundigen werken samen met machine learning specialisten. Dit soort werk vraagt ook om vastberadenheid en investeringen in onderzoeksinfrastructuren die als platform dienen voor onderzoekers uit verschillende vakgebieden om aan samen te werken."
Volgens professor Laitinen, het is essentieel voor onderzoekers om toegang te hebben tot social media data.
"Momenteel, gegevens zijn eigendom van Amerikaanse technologieconglomeraten, en een bron van inkomsten. Om onderzoekers toegang te geven tot deze gegevens, samenwerking op nationaal en internationaal niveau, en vooral de betrokkenheid van de EU is nodig."
Wetenschap © https://nl.scienceaq.com