science >> Wetenschap >  >> Elektronica

Desinformatie online spotten via kunstmatige intelligentie

Krediet:iStock/champja

We leven in een tijdperk van te veel informatie - een eindeloze stroom van statusupdates, memen, herpost, infografieken, quotes en hashtags rollen dagelijks door onze social media feeds, bedoeld om standpunten uit te drukken, roep solidariteit op, informatie verschaffen, van gedachten veranderen of controverse veroorzaken.

Probleem is, de gemiddelde gebruiker van online browsers/sociale media heeft niet de tijd of middelen om de legitimiteit of herkomst te onderzoeken van alles wat op hun feeds verschijnt. En het is deze kwetsbaarheid die minder scrupuleuze contentgenerators uitbuiten om verkeerde informatie te verspreiden, met resultaten die kunnen variëren van een beetje schaamte in het gezicht tot ronduit levensveranderende of potentieel dodelijke gevolgen.

Voor UC Santa Barbara computerwetenschapper William Wang, dit chaotische moeras is een vruchtbare grond voor verkenning. Wang gelooft dat deep learning-technieken, wanneer ingezet op het tekst- en hyperlinknetwerk van online berichten en nieuwsartikelen, kan ons helpen met een deel van het zware werk van kritisch denken. Dit concept vormt de kern van zijn driejarige project "Dynamo:Dynamic Multichannel Modeling of Misinformation".

"Dus de vraag is een bericht gegeven, hoe zou je kunnen begrijpen of dit specifiek misleidend is of dat dit een echte post is, "Wan zei, "en, gezien de structuur van het netwerk, kun je de verspreiding van verkeerde informatie identificeren en hoe deze anders zal zijn in vergelijking met standaard of niet-standaard artikelen?"

Een grote bestelling

Het is een hele opgave, vooral op het gebied van sociale media, die het speelveld tussen legitieme, gevestigde nieuwswebsites en dubieuze sites die hun best doen om er officieel uit te zien, of een beroep doen op de emoties van een gebruiker voordat ze een stap terug kunnen doen en de bron van hun informatie in twijfel trekken.

Echter, dankzij natuurlijke taalverwerking - de specialiteit van Wang - kan de tekst in deze berichten en artikelen worden gebruikt om informatie over hun makers en verspreiders te onthullen, zoals hun voorkeuren, ideologieën en prikkels om te posten, evenals wie hun beoogde publiek kan zijn. Het algoritme kruipt door miljoenen nieuwsartikelen die zijn gepost door geanonimiseerde gebruikers op platforms zoals Twitter en Reddit en onderzoekt de titels van de artikelen, inhoud en links. Het doel is om niet alleen een idee te krijgen van de entiteiten erachter, maar ook van hun verspreidingspatronen over het netwerk.

"Velen van ons nemen websites als vanzelfsprekend aan en retweeten of reposten terloops verkeerde informatie en zo wordt het verspreid, cascades en verspreidt zich viraal, Wang zei. "Enkele van de belangrijkste vragen die we stellen zijn:wat zijn de patronen? Wat zijn de prikkels?"

Er achter komen, hij en zijn team stelden een leermechanisme voor dat uitzoekt waarom bepaalde verhalen opnieuw worden gepost of geretweet, naast of de inhoud zelf waar of onwaar is. Onderweg, Wang zei, ze zouden kunnen achterhalen wie betrokken is bij de verspreiding van de verkeerde informatie en welke patronen in dat proces naar voren kunnen komen. Afbeeldingen worden ook onderdeel van de dataset, hij voegde toe.

Later, de onderzoekers zijn van plan om andere aspecten van hun werk te integreren met verkeerde informatie, zoals clickbait, die pakkende, vaak sensationele titels om lezers te verleiden om op een link te klikken die hen op zijn best naar een onbetrouwbare website stuurt, of in het slechtste geval hun informatie steelt.

"Clickbait zijn voornamelijk artikelen van lage kwaliteit die inderdaad veel verkeerde informatie en valse informatie kunnen bevatten omdat ze moeten overdrijven, " zei Wang. Samen met informatica-promovendus Jiawei Wu, ontwikkelde het team een ​​methode genaamd "reinforced co-training, " dat een efficiënt systeem gebruikt om een ​​paar honderd artikelen te labelen die vervolgens worden gebruikt om een ​​machine learning classifier te trainen om te labelen wat hij denkt dat clickbait kan zijn in een enorme, dataset van miljoenen verdiepingen.

"Vervolgens nemen we deze nieuw gelabelde instanties en trainen we de classifier opnieuw, Wang zei. "Dit iteratieve proces stelt ons in staat om in de loop van de tijd meer labelgegevens te verzamelen, " hij voegde toe, die de nauwkeurigheid van het gereedschap verfijnt.

Het gebruik van kunstmatige intelligentie om patronen te begrijpen en te vinden in de vloedgolf van tekst die we elkaar elke dag sturen, zou ons inzicht geven in hoe we, opzettelijk of onbewust, verkeerde informatie verspreiden.

"Dat is het mooie van natuurlijke taalverwerking en machinaal leren, Wang zei. "We hebben een enorme hoeveelheid gegevens in verschillende formaten, en de vraag is:hoe zet je ongestructureerde data om in gestructureerde kennis? Dat is een van de doelen van deep learning en data science."