Wetenschap
Krediet:CC0 Publiek Domein
Nieuw werk van MIT-onderzoekers onder de motorkap van een geautomatiseerd detectiesysteem voor nepnieuws, onthullend hoe modellen voor machinaal leren subtiele maar consistente verschillen in de taal van feitelijke en valse verhalen opvangen. Het onderzoek onderstreept ook hoe nepnieuwsdetectoren strengere tests moeten ondergaan om effectief te zijn voor toepassingen in de echte wereld.
Gepopulariseerd als een concept in de Verenigde Staten tijdens de presidentsverkiezingen van 2016, nepnieuws is een vorm van propaganda die is gemaakt om lezers te misleiden, om views op websites te genereren of de publieke opinie te sturen.
Bijna net zo snel als de kwestie mainstream werd, onderzoekers begonnen geautomatiseerde nepnieuwsdetectoren te ontwikkelen - zogenaamde neurale netwerken die "leren" van tientallen gegevens om taalkundige aanwijzingen te herkennen die wijzen op valse artikelen. Gezien nieuwe artikelen om te beoordelen, deze netwerken kunnen met vrij hoge nauwkeurigheid, feit van fictie scheiden, in gecontroleerde instellingen.
een kwestie, echter, is het 'black box'-probleem - wat betekent dat het niet te zeggen is welke taalpatronen de netwerken analyseren tijdens de training. Ze zijn ook getraind en getest op dezelfde onderwerpen, die hun potentieel om te generaliseren naar nieuwe onderwerpen kunnen beperken, een noodzaak voor het analyseren van nieuws op internet.
In een paper gepresenteerd op de conferentie en workshop over neurale informatieverwerkingssystemen, de onderzoekers pakken beide problemen aan. Ze ontwikkelden een deep-learningmodel dat leert taalpatronen van nep- en echt nieuws te detecteren. Een deel van hun werk "kraakt" de zwarte doos om de woorden en zinnen te vinden die het model vastlegt om zijn voorspellingen te doen.
Aanvullend, ze testten hun model op een nieuw onderwerp dat het niet in de training zag. Deze aanpak classificeert individuele artikelen uitsluitend op basis van taalpatronen, die meer een real-world toepassing voor nieuwslezers vertegenwoordigt. Traditionele nepnieuwsdetectoren classificeren artikelen op basis van tekst in combinatie met broninformatie, zoals een Wikipedia-pagina of website.
"In ons geval, we wilden begrijpen wat het besluitvormingsproces van de classificatie was, alleen gebaseerd op taal, omdat dit inzicht kan geven in de taal van nepnieuws, " zegt co-auteur Xavier Boix, een postdoc in het lab van Eugene McDermott Professor Tomaso Poggio bij het Center for Brains, geesten, en Machines (CBMM) in de afdeling Hersen- en Cognitieve Wetenschappen (BCS).
"Een belangrijk probleem met machine learning en kunstmatige intelligentie is dat je een antwoord krijgt en niet weet waarom je dat antwoord hebt gekregen. " zegt afgestudeerde student en eerste auteur Nicole O'Brien '17. "Het tonen van deze innerlijke werking is een eerste stap naar het begrijpen van de betrouwbaarheid van diepgaande nepnieuwsdetectoren."
Het model identificeert reeksen woorden die vaker voorkomen in echt of nepnieuws - sommige misschien voor de hand liggend, anderen veel minder. De bevindingen, zeggen de onderzoekers, wijst op subtiele maar consistente verschillen tussen nepnieuws - dat overdrijvingen en superlatieven bevordert - en echt nieuws, wat meer neigt naar conservatieve woordkeuzes.
"Nepnieuws is een bedreiging voor de democratie, " zegt Boix. "In ons lab, ons doel is niet alleen om de wetenschap vooruit te helpen, maar ook om technologieën te gebruiken om de samenleving te helpen. ... Het zou krachtig zijn om tools te hebben voor gebruikers of bedrijven die kunnen beoordelen of nieuws nep is of niet."
De andere co-auteurs van het artikel zijn Sophia Latessa, een niet-gegradueerde student in CBMM; en Georgios Evangelopoulos, een onderzoeker bij CBMM, het McGovern Instituut voor Hersenonderzoek, en het Laboratorium voor Computationeel en Statistisch Leren.
Vooringenomenheid beperken
Het model van de onderzoekers is een convolutief neuraal netwerk dat traint op een dataset van nepnieuws en echt nieuws. Voor training en testen, de onderzoekers gebruikten een populaire onderzoeksdataset voor nepnieuws, genaamd Kaggle, die ongeveer 12 bevat, 000 nepnieuws-voorbeeldartikelen van 244 verschillende websites. Ze hebben ook een dataset samengesteld met voorbeelden van echt nieuws, meer dan 2 gebruiken, 000 van de New York Times en meer dan 9, 000 van The Guardian.
In opleiding, het model vangt de taal van een artikel op als "woordinsluitingen, " waar woorden worden weergegeven als vectoren - in feite, reeksen getallen - met woorden met vergelijkbare semantische betekenissen dichter bij elkaar geclusterd. Daarbij, het legt drielingen van woorden vast als patronen die enige context bieden, zoals zeggen, een negatieve opmerking over een politieke partij. Gezien een nieuw artikel, het model scant de tekst op vergelijkbare patronen en stuurt ze over een reeks lagen. Een laatste uitvoerlaag bepaalt de waarschijnlijkheid van elk patroon:echt of nep.
De onderzoekers hebben het model eerst op de traditionele manier getraind en getest, dezelfde onderwerpen gebruiken. Maar ze dachten dat dit een inherente vertekening in het model zou kunnen veroorzaken, aangezien bepaalde onderwerpen vaker het onderwerp zijn van nep- of echt nieuws. Bijvoorbeeld, nepnieuwsverhalen bevatten over het algemeen vaker de woorden 'Trump' en 'Clinton'.
"Maar dat is niet wat we wilden, O'Brien zegt. "Dat toont alleen onderwerpen die sterk wegen in nep- en echt nieuws. ... We wilden de werkelijke patronen in taal vinden die daar indicatief voor zijn."
Volgende, de onderzoekers trainden het model over alle onderwerpen zonder het woord "Trump, " en testte het model alleen op monsters die apart waren gezet van de trainingsgegevens en die het woord 'Trump' bevatten. Terwijl de traditionele benadering een nauwkeurigheid van 93 procent bereikte, de tweede benadering bereikte een nauwkeurigheid van 87 procent. Deze nauwkeurigheidskloof, zeggen de onderzoekers, benadrukt het belang van het gebruik van onderwerpen uit het opleidingsproces, om ervoor te zorgen dat het model wat het heeft geleerd kan generaliseren naar nieuwe onderwerpen.
Meer onderzoek nodig
Om de zwarte doos te openen, de onderzoekers keerden vervolgens op hun stappen terug. Elke keer dat het model een voorspelling doet over een woordtriplet, een bepaald deel van het model wordt geactiveerd, afhankelijk van of de triplet waarschijnlijker is uit een echt of nepnieuwsverhaal. De onderzoekers ontwierpen een methode om elke voorspelling terug te voeren naar het aangewezen deel en vervolgens de exacte woorden te vinden waardoor deze werd geactiveerd.
Er is meer onderzoek nodig om te bepalen hoe nuttig deze informatie is voor lezers, zegt Boix. In de toekomst, het model kan eventueel worden gecombineerd met, zeggen, geautomatiseerde factcheckers en andere tools om lezers een voorsprong te geven bij het bestrijden van verkeerde informatie. Na wat verfijning, het model zou ook de basis kunnen zijn van een browserextensie of app die lezers waarschuwt voor mogelijk nepnieuws.
"Als ik je een artikel geef, en markeer die patronen in het artikel terwijl je aan het lezen bent, je zou kunnen beoordelen of het artikel min of meer nep is, "zegt hij. "Het zou een soort waarschuwing zijn om te zeggen, 'Hallo, misschien is hier iets vreemds aan de hand.'"
Wetenschap © https://nl.scienceaq.com