science >> Wetenschap >  >> Elektronica

Het algoritme voor het detecteren van nepnieuws werkt beter dan een mens

Krediet:CC0 Publiek Domein

Een op algoritmen gebaseerd systeem dat veelbetekenende taalkundige aanwijzingen in nepnieuwsverhalen identificeert, zou nieuwsaggregatoren en sociale-mediasites zoals Google Nieuws een nieuw wapen kunnen bieden in de strijd tegen verkeerde informatie.

De onderzoekers van de Universiteit van Michigan die het systeem hebben ontwikkeld, hebben aangetoond dat het vergelijkbaar is met en soms beter dan mensen in het correct identificeren van nepnieuwsverhalen.

In een recente studie, het vond tot 76 procent van de tijd met succes vervalsingen, vergeleken met een menselijk succespercentage van 70 procent. In aanvulling, hun benadering van taalkundige analyse zou kunnen worden gebruikt om nepnieuwsartikelen te identificeren die te nieuw zijn om te worden ontkracht door hun feiten te vergelijken met andere verhalen.

Rada Mihalcea, de UM-professor computerwetenschappen en techniek achter het project, zei dat een geautomatiseerde oplossing een belangrijk hulpmiddel kan zijn voor sites die worstelen met een aanval van nepnieuwsverhalen, vaak gemaakt om klikken te genereren of de publieke opinie te manipuleren.

Het kan moeilijk zijn om nepverhalen te vangen voordat ze echte gevolgen hebben, aangezien aggregator- en sociale-mediasites tegenwoordig sterk afhankelijk zijn van menselijke redacteuren die de stroom van nieuws vaak niet kunnen bijhouden. In aanvulling, huidige ontmaskeringstechnieken zijn vaak afhankelijk van externe verificatie van feiten, wat moeilijk kan zijn met de nieuwste verhalen. Vaak, tegen de tijd dat een verhaal vals blijkt te zijn, het kwaad is al geschied.

Taalanalyse heeft een andere benadering, analyseren van kwantificeerbare attributen zoals grammaticale structuur, woordkeuze, interpunctie en complexiteit. Het werkt sneller dan mensen en kan worden gebruikt met verschillende soorten nieuws.

"Je kunt je een willekeurig aantal toepassingen voorstellen aan de voor- of achterkant van een nieuws- of sociale-mediasite, "Zei Mihalcea. "Het zou gebruikers een schatting kunnen geven van de betrouwbaarheid van individuele verhalen of een hele nieuwssite. Of het kan een eerste verdedigingslinie zijn aan de achterkant van een nieuwssite, verdachte verhalen markeren voor verdere beoordeling. Een slagingspercentage van 76 procent laat een vrij grote foutenmarge achter, maar het kan nog steeds waardevol inzicht bieden wanneer het naast mensen wordt gebruikt."

Linguïstische algoritmen die geschreven spraak analyseren, zijn tegenwoordig vrij gebruikelijk, zei Mihalcea. De uitdaging bij het bouwen van een nepnieuwsdetector ligt niet in het bouwen van het algoritme zelf, maar in het vinden van de juiste data om dat algoritme te trainen.

Nepnieuws verschijnt en verdwijnt snel, wat het verzamelen moeilijk maakt. Het komt ook in vele genres, het incassoproces verder bemoeilijken. Satirisch nieuws, bijvoorbeeld, is gemakkelijk te verzamelen, maar het gebruik van ironie en absurditeit maakt het minder bruikbaar voor het trainen van een algoritme om nepnieuws te detecteren dat bedoeld is om te misleiden.

uiteindelijk, Het team van Mihalcea creëerde zijn eigen gegevens, crowdsourcing van een online team dat geverifieerde echte nieuwsverhalen reverse-engineered in vervalsingen. Dit is hoe het meeste echte nepnieuws wordt gemaakt, Mihalcea zei, door individuen die ze snel schrijven in ruil voor een geldelijke beloning.

Studie deelnemers, aangeworven met de hulp van Amazon Mechanical Turk, werden betaald om te kort te schieten, actuele nieuwsberichten in vergelijkbare maar nepnieuwsitems, het nabootsen van de journalistieke stijl van de artikelen. Aan het einde van het proces, het onderzoeksteam had een dataset van 500 echte en nepnieuwsverhalen.

Vervolgens voerden ze deze gelabelde verhalenparen aan een algoritme dat een taalkundige analyse uitvoerde, leert zelf onderscheid te maken tussen echt en nepnieuws. Eindelijk, het team heeft de algoritmen omgezet in een dataset van echt en nepnieuws dat rechtstreeks van internet is gehaald, verrekening van het slagingspercentage van 76 procent.

De details van het nieuwe systeem en de dataset die het team heeft gebruikt om het te bouwen, zijn vrij beschikbaar, en Mihalcea zegt dat ze door nieuwssites of andere entiteiten kunnen worden gebruikt om hun eigen nepnieuwsdetectiesystemen te bouwen. Ze zegt dat toekomstige systemen verder kunnen worden aangescherpt door metadata op te nemen, zoals de links en opmerkingen die bij een bepaald online nieuwsitem horen.

Een paper waarin het systeem wordt beschreven, zal op 24 augustus worden gepresenteerd op de 27e internationale conferentie over computerlinguïstiek in Santa Fe, N.M. Mihalcea werkte samen met U-M informatica en technisch assistent-onderzoeker Veronica Perez-Rosas, psychologieonderzoeker Bennett Kleinberg aan de Universiteit van Amsterdam en UM-student Alexandra Lefevre.

De krant is getiteld "Automatische detectie van nepnieuws".