science >> Wetenschap >  >> Elektronica

Algoritmen onthullen patronen om nepnieuws te bestrijden

Krediet:Universiteit van Californië - Riverside

In februari, het ministerie van Justitie beschuldigde 13 Russen van het stelen van de identiteit van Amerikaanse burgers en het verspreiden van "nepnieuws" met de bedoeling de laatste Amerikaanse presidentsverkiezingen te ondermijnen. De zaak loopt nog en kan dat jarenlang doen. Ondertussen, UCR-onderzoekers hebben een op technologie gebaseerde oplossing ontwikkeld voor de verspreiding van kwaadaardige desinformatie.

UCR's multi-aspect datalab, onder leiding van Evangelos E. Papalexakis, universitair docent bij de afdeling Computer Science and Engineering, ontwikkelt nieuwe datawetenschapstechnieken om een ​​verscheidenheid aan problemen bij de analyse van sociale netwerken aan te pakken, met financiering van Naval Sea Systems Command, Naval Engineering Onderwijsconsortium, de Nationale Wetenschapsstichting, en Adobe.

De onderzoekers bouwen algoritmen om patronen te onderscheiden die duiden op 'nepnieuws'. Door extrapolatie, en opdrachten die zijn ingevoegd in de contentmanagementsystemen van uitgevers, deze items kunnen vervolgens worden verwijderd voordat ze live gaan en schade aanrichten. Cruciaal, de UCR-berekening kan de "voetafdruk" van dergelijke posten registreren om vervolgingen te ondersteunen.

Papalexakis' laatste academische paper over dit werk:"Unsupervised Content-Based Identification of Fake News Articles with Tensor Decomposition Ensembles, " mede geschreven met afgestudeerde onderzoeksassistent Seyed Mehdi Hosseini Motlagh, was gepresenteerd, en won de "beste papierprijs, " tijdens de recente MIS2:Misinformation and Misbehavior Mining on the Web workshop, onderdeel van WSDM 2018 (11e ACM International Conference on Web Search and Data Mining).

"Eerdere studies hebben nuttige inzichten opgeleverd over de verspreiding van een artikel in een sociaal netwerk. detectie die uitsluitend hierop is gebaseerd, brengt het risico met zich mee dat een nepnieuwsartikel een aantal gebruikers van sociale media 'infecteert' voordat het wordt gedetecteerd, "Zei Papalexakis. "In plaats daarvan, ons werk is gericht op de vroege detectie van dergelijke artikelen, vooral in gevallen waarin we geen externe kennis hebben met betrekking tot de geldigheid en waarheidsgetrouwheid van een artikel."

Monitoring van menselijke netwerken is gebaseerd op een combinatie van gezond verstand en ervaring om te weten of iets legitiem is. Bijvoorbeeld, moderators controleren of de kop in HOOFDLETTERS staat (digi-cultuurcode voor "schreeuwen"), gebruik bekende trefwoorden voor haatmisdrijven, en zoek naar een gebrek aan geverifieerde bronnen voor valse claims.

Maar hoe leer je een computer dat deze driehoekige attributen vaak op 'nepnieuws' duiden?

Machinegebaseerd begrip berust puur op wiskundige concepten, dus gebruiken Papalexakis en zijn onderzoekers zogenaamde 'Multi-Aspect Data'. Simpel gezegd, stel je een sociale groepering voor waarin iedereen binnen de interactie vele manieren heeft om contact te maken (d.w.z. telefoon, tekst, video, instant bericht, berichten op sociale media). Het Multi-Aspect Data Lab registreert vervolgens, onderzoekt, categoriseert en modelleert al deze inputs, gebaseerd op wat bekend staat als "tensor-decomposities". Een "tensor" in datawetenschap betekent een multidimensionale structuur, als een kubus. Alle multi-aspecten worden digitaal vastgelegd als multidimensionale kubussen, zodat het systeem kan onderzoeken en "begrijpen" wat er werkelijk aan de hand is - en of het nieuws nep is, of niet.

"De tensor-decompositietechnieken die we ontwikkelen, zijn in staat om genuanceerde patronen vast te leggen die met succes verschillende categorieën nepnieuws identificeren, zonder gebruik te maken van externe kennis over de geldigheid van een bepaald artikel." zei Papalexakis.

Door gebruik te maken van de diversiteit van alle data-aspecten, het UCR-systeem geeft een nauwkeuriger resultaat dan eerder gepubliceerd onderzoek op dit gebied. In hun krant de auteurs illustreren hoe ze hun algoritme samenstellen, publiceer vervolgens de resultaten van meerdere experimenten, waaruit blijkt dat het voorgestelde algoritme tot 80 procent van het nepnieuws identificeerde.

De industrie heeft kennis genomen. Papalexakis zei dat hij actief samenwerkingen aangaat met grote technologiereuzen.