science >> Wetenschap >  >> Elektronica

De taal verraadt het:hoe een algoritme ons kan helpen nepnieuws op te sporen

In een poging het groeiende probleem van nepnieuws online aan te pakken, een algoritme dat patronen in taal identificeert, kan helpen onderscheid te maken tussen feitelijke en onnauwkeurige nieuwsartikelen. Krediet:Shutterstock

Heb je ooit iets online gelezen en gedeeld met je netwerken, alleen om erachter te komen dat het vals was?

Als software-ingenieur en computerlinguïst die het grootste deel van haar werk en zelfs vrije uren achter een computerscherm doorbrengt, Ik maak me zorgen over wat ik online lees. In het tijdperk van sociale media, velen van ons consumeren onbetrouwbare nieuwsbronnen. We worden blootgesteld aan een wilde stroom van informatie in onze sociale netwerken, vooral als we veel tijd besteden aan het scannen van willekeurige berichten van onze vrienden op Twitter en Facebook.

Mijn collega's en ik van het Discourse Processing Lab aan de Simon Fraser University hebben onderzoek gedaan naar de taalkundige kenmerken van nepnieuws.

De effecten van nepnieuws

Uit een onderzoek in het Verenigd Koninkrijk bleek dat ongeveer tweederde van de ondervraagde volwassenen regelmatig nieuws op Facebook leest, en dat de helft van hen de ervaring had aanvankelijk een nepnieuwsverhaal te geloven. Een andere studie, uitgevoerd door onderzoekers van het Massachusetts Institute of Technology, gericht op de cognitieve aspecten van blootstelling aan nepnieuws en ontdekte dat, gemiddeld, nieuwslezers geloven ten minste 20 procent van de tijd een valse nieuwskop.

Valse verhalen verspreiden zich nu 10 keer sneller dan echt nieuws en het probleem van nepnieuws vormt een ernstige bedreiging voor onze samenleving.

Bijvoorbeeld, tijdens de verkiezingen van 2016 in de Verenigde Staten, een verbazingwekkend aantal Amerikaanse burgers geloofde en deelde een overduidelijk valse samenzwering die beweerde dat Hilary Clinton verbonden was met een mensensmokkelbende die uit een pizzarestaurant liep. De eigenaar van het restaurant ontving doodsbedreigingen, en een gelovige verscheen in het restaurant met een pistool. Dit - en een aantal andere nepnieuwsverhalen die tijdens het verkiezingsseizoen werden verspreid - had een onmiskenbare impact op de stemmen van mensen.

Het is vaak moeilijk om de oorsprong van een verhaal te vinden na partijdige groepen, social media bots en vrienden van vrienden hebben het duizenden keren gedeeld. Fact-checking websites zoals Snopes en Buzzfeed kunnen slechts een klein deel van de meest populaire geruchten adresseren.

De technologie achter internet en sociale media heeft deze verspreiding van verkeerde informatie mogelijk gemaakt; misschien is het tijd om te vragen wat deze technologie te bieden heeft om het probleem aan te pakken.

In een interview, Hilary Clinton bespreekt ‘Pizzagate’ en het probleem van nepnieuws online.

Giveaways in schrijfstijl

Recente ontwikkelingen op het gebied van machinaal leren hebben het voor computers mogelijk gemaakt om onmiddellijk taken uit te voeren die mensen veel langer zouden hebben gekost. Bijvoorbeeld, er zijn computerprogramma's waarmee de politie criminele gezichten binnen enkele seconden kan identificeren. Dit soort kunstmatige intelligentie traint algoritmen om te classificeren, detecteren en beslissingen nemen.

Wanneer machine learning wordt toegepast op natuurlijke taalverwerking, het is mogelijk om tekstclassificatiesystemen te bouwen die het ene type tekst van het andere herkennen.

Gedurende de afgelopen jaren, wetenschappers op het gebied van natuurlijke taalverwerking zijn actiever geworden in het bouwen van algoritmen om verkeerde informatie op te sporen; dit helpt ons de kenmerken van nepnieuws te begrijpen en technologie te ontwikkelen om lezers te helpen.

Eén benadering vindt relevante informatiebronnen, kent elke bron een geloofwaardigheidsscore toe en integreert ze vervolgens om een ​​bepaalde claim te bevestigen of te ontkrachten. Deze aanpak is sterk afhankelijk van het opsporen van de oorspronkelijke nieuwsbron en het beoordelen van de geloofwaardigheid ervan op basis van verschillende factoren.

Een tweede benadering onderzoekt de schrijfstijl van een nieuwsartikel in plaats van de oorsprong ervan. De taalkundige kenmerken van een geschreven stuk kunnen ons veel vertellen over de auteurs en hun motieven. Bijvoorbeeld, specifieke woorden en zinsdelen komen vaker voor in een misleidende tekst dan in een tekst die eerlijk is geschreven.

Nepnieuws spotten

Ons onderzoek identificeert taalkundige kenmerken om nepnieuws te detecteren met behulp van machine learning en natuurlijke taalverwerkingstechnologie. Onze analyse van een grote verzameling op feiten gecontroleerde nieuwsartikelen over verschillende onderwerpen laat zien dat, gemiddeld, nepnieuwsartikelen gebruiken meer uitdrukkingen die veel voorkomen in haatspraak, evenals woorden die verband houden met seks, dood en angst. Echt nieuws, anderzijds, bevat een groter aandeel woorden die te maken hebben met werk (zaken) en geld (economie).

Dit suggereert dat een stilistische benadering in combinatie met machine learning nuttig kan zijn bij het detecteren van verdacht nieuws.

Onze nepnieuwsdetector is gebouwd op basis van taalkundige kenmerken die zijn geëxtraheerd uit een groot aantal nieuwsartikelen. Het neemt een stukje tekst en laat zien hoe vergelijkbaar het is met het nepnieuws en echte nieuwsitems die het eerder heeft gezien. (Probeer het!)

De belangrijkste uitdaging, echter, is het bouwen van een systeem dat de grote verscheidenheid aan nieuwsonderwerpen en de snelle verandering van koppen online aankan, omdat computeralgoritmen leren van steekproeven en als deze steekproeven niet voldoende representatief zijn voor online nieuws, de voorspellingen van het model zouden niet betrouwbaar zijn.

Een optie is om menselijke experts een grote hoeveelheid nep- en echte nieuwsartikelen te laten verzamelen en labelen. Met deze gegevens kan een algoritme voor machine learning gemeenschappelijke kenmerken vinden die in elke verzameling blijven voorkomen, ongeacht andere variëteiten. uiteindelijk, het algoritme zal met vertrouwen onderscheid kunnen maken tussen voorheen ongeziene echte of nepnieuwsartikelen.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.