science >> Wetenschap >  >> Elektronica

Machine learning-systeem is bedoeld om te bepalen of een nieuwsuitzending nauwkeurig of bevooroordeeld is

Een machine learning-systeem is bedoeld om te bepalen of een nieuwsuitzending nauwkeurig of bevooroordeeld is. Krediet:Publiek domein

De feitencontrolewereld verkeert de laatste tijd een beetje in een crisis. Sites zoals Politifact en Snopes zijn traditioneel gericht op specifieke claims, wat bewonderenswaardig maar vervelend is - tegen de tijd dat ze een feit hebben geverifieerd of ontkracht, er is een goede kans dat het al over de hele wereld is gereisd en weer terug.

Social-mediabedrijven hebben ook gemengde resultaten geboekt bij het beperken van de verspreiding van propaganda en verkeerde informatie:Facebook is van plan om 20, 000 menselijke moderators tegen het einde van het jaar, en besteedt vele miljoenen aan het ontwikkelen van zijn eigen nepnieuws-detectiealgoritmen.

Onderzoekers van MIT's Computer Science and Artificial Intelligence Lab (CSAIL) en het Qatar Computing Research Institute (QCRI) zijn van mening dat de beste aanpak is om niet te focussen op de feitelijkheid van individuele claims, maar op de nieuwsbronnen zelf. Met behulp van deze tack, ze hebben een nieuw systeem gedemonstreerd dat machine learning gebruikt om te bepalen of een bron nauwkeurig of politiek bevooroordeeld is.

"Als een website al eerder nepnieuws heeft gepubliceerd, er is een goede kans dat ze het nog een keer doen, " zegt postdoctoraal medewerker Ramy Baly, hoofdauteur van een nieuw artikel over het systeem. "Door automatisch gegevens over deze sites te verzamelen, de hoop is dat ons systeem kan helpen erachter te komen welke waarschijnlijk het in de eerste plaats zullen doen."

Baly zegt dat het systeem slechts ongeveer 150 artikelen nodig heeft om betrouwbaar te detecteren of een nieuwsbron te vertrouwen is.

Het systeem is een samenwerking tussen computerwetenschappers van MIT CSAIL en QCRI, dat deel uitmaakt van de Hamad Bin Khalifa University in Qatar. Onderzoekers namen eerst gegevens van Media Bias/Fact Check (MBFC), een website met menselijke fact-checkers die de nauwkeurigheid en vooroordelen van meer dan 2 analyseren, 000 nieuwssites, van MSNBC en Fox News tot boerderijen met weinig verkeer.

Ze voerden die gegevens vervolgens door naar een machine learning-algoritme, een Support Vector Machine (SVM) classifier genaamd. en programmeerde het om nieuwssites op dezelfde manier te classificeren als MBFC. Wanneer ze een nieuw nieuwsuitzending krijgen, het systeem was toen 65 procent nauwkeurig in het detecteren of het een hoge, laag of gemiddeld niveau van "feitelijkheid, " en ongeveer 70 procent nauwkeurig in het detecteren of het naar links leunt, rechts of matig.

Het team stelde vast dat de meest betrouwbare manieren om zowel nepnieuws als bevooroordeelde berichtgeving op te sporen, waren door te kijken naar de gemeenschappelijke taalkenmerken in de verhalen van de bron, inclusief gevoel, complexiteit en structuur.

Bijvoorbeeld, nepnieuwskanalen bleken vaker hyperbolische taal te gebruiken, subjectief, en emotioneel. In termen van vooroordelen, linkse verkooppunten hadden meer kans om taal te gebruiken die verband hield met concepten van schade/zorg en eerlijkheid/wederkerigheid, in vergelijking met andere kwaliteiten zoals loyaliteit, gezag en heiligheid. (Deze kwaliteiten vertegenwoordigen de 5 "morele fundamenten, " een populaire theorie in de sociale psychologie.)

Co-auteur Preslav Nakov zegt dat het systeem ook correlaties vond met de Wikipedia-pagina van een outlet, die het beoordeelde op algemene lengte - langer is geloofwaardiger - evenals doelwoorden als 'extreem' of 'samenzweringstheorie'. Het vond zelfs correlaties met de tekststructuur van de URL's van een bron:die met veel speciale tekens en gecompliceerde submappen, bijvoorbeeld, werden geassocieerd met minder betrouwbare bronnen.

"Omdat het veel gemakkelijker is om de waarheid te achterhalen over bronnen [dan over artikelen], deze methode is in staat om directe en nauwkeurige voorspellingen te doen met betrekking tot het type inhoud dat door deze bronnen wordt verspreid, " zegt Sibel Adali, een professor in de informatica aan het Rensselaer Polytechnic Institute die niet bij het project betrokken was.

Nakov waarschuwt er snel voor dat het systeem nog steeds in ontwikkeling is, en dat, zelfs met verbeteringen in nauwkeurigheid, het zou het beste werken in combinatie met traditionele factcheckers.

"Als verkooppunten verschillend rapporteren over een bepaald onderwerp, een site als Politifact zou direct kunnen kijken naar onze 'nepnieuws'-scores voor die verkooppunten om te bepalen hoeveel validiteit we aan verschillende perspectieven moeten geven, " zegt Nakov, een senior wetenschapper bij QCRI.

Baly en Nakov schreven het nieuwe artikel samen met MIT senior onderzoeker James Glass, samen met masterstudenten Dimitar Alexandrov en Georgi Karadzhov van de Universiteit van Sofia. Het team zal het werk later deze maand presenteren op de 2018 Empirical Methods in Natural Language Processing (EMNLP) conferentie in Brussel, België.

De onderzoekers creëerden ook een nieuwe open-source dataset van meer dan 1, 000 nieuwsbronnen, geannoteerd met feitelijkheids- en biasscores - 's werelds grootste database in zijn soort. Als volgende stappen, het team zal onderzoeken of het Engels opgeleide systeem kan worden aangepast aan andere talen, en om verder te gaan dan de traditionele links/rechts vooringenomenheid om regiospecifieke vooroordelen te onderzoeken (zoals de scheiding van de moslimwereld tussen religieus en seculier).

"Deze onderzoeksrichting kan licht werpen op hoe onbetrouwbare websites eruit zien en het soort inhoud dat ze meestal delen, wat zeer nuttig zou zijn voor zowel webontwerpers als het grote publiek, " zegt Andreas Vlachos, een hoofddocent aan de Universiteit van Cambridge die niet bij het project betrokken was.

Nakov zegt dat QCRI ook plannen heeft om een ​​app uit te rollen die gebruikers helpt uit hun politieke bubbel te stappen, reageren op specifieke nieuwsberichten door gebruikers een verzameling artikelen aan te bieden die het politieke spectrum bestrijken.

"Het is interessant om na te denken over nieuwe manieren om het nieuws aan mensen te presenteren, ", zegt Nakov. "Met dergelijke tools kunnen mensen wat meer nadenken over problemen en andere perspectieven verkennen die ze anders misschien niet hadden overwogen."