science >> Wetenschap >  >> Elektronica

Mensen en AI werken samen om clickbait-detectie te verbeteren

Krediet:CC0 Publiek Domein

Mensen en machines werkten samen om een ​​kunstmatige intelligentie-AI-model te trainen dat beter presteerde dan andere clickbait-detectoren, volgens onderzoekers van Penn State en Arizona State University. In aanvulling, de nieuwe op AI gebaseerde oplossing was ook in staat om het verschil te zien tussen clickbait-koppen die werden gegenereerd door machines - of bots - en die geschreven door mensen, ze zeiden.

In een onderzoek, vroegen de onderzoekers mensen om hun eigen clickbait te schrijven - een interessante, maar misleidend, nieuwskop ontworpen om lezers aan te trekken om op links naar andere online verhalen te klikken. De onderzoekers programmeerden ook machines om kunstmatige clickbaits te genereren. Vervolgens, de koppen van zowel mensen als machines werden gebruikt als data om een ​​clickbait-detectie-algoritme te trainen.

Het vermogen van het resulterende algoritme om clickbait-koppen te voorspellen was ongeveer 14,5 procent beter dan die van andere systemen, volgens de onderzoekers die hun bevindingen vandaag (28 augustus) hebben vrijgegeven op de IEEE/ACM International Conference on Advances in Social Networks Analysis (ASONAM) 2019 in Vancouver, Canada.

Naast het gebruik bij clickbait-detectie, de aanpak van het team kan de prestaties van machine learning in het algemeen helpen verbeteren, zei Dongwon Lee, de hoofdonderzoeker van het project en een universitair hoofddocent aan het College of Information Sciences and Technology. Lee is ook een filiaal van Penn State's Institute for CyberScience (ICS), die onderzoekers van Penn State toegang geeft tot supercomputerbronnen.

"Dit resultaat is best interessant omdat we met succes hebben aangetoond dat machinegegenereerde clickbait-trainingsgegevens kunnen worden teruggevoerd naar de trainingspijplijn om een ​​breed scala aan machine learning-modellen te trainen voor verbeterde prestaties, "zei Lee. "Dit is de stap in de richting van het aanpakken van het fundamentele knelpunt van gesuperviseerd machine learning, waarvoor een grote hoeveelheid hoogwaardige trainingsgegevens nodig is."

Volgens Thai Le, een doctoraatsstudent aan het College voor Informatiewetenschappen en Technologie, Penn staat, een van de uitdagingen waarmee de ontwikkeling van clickbait-detectie wordt geconfronteerd, is het gebrek aan gelabelde gegevens. Net zoals mensen leraren en studiegidsen nodig hebben om te leren, AI-modellen hebben gelabelde gegevens nodig om hen te helpen de juiste verbanden en associaties te leren maken.

"Een van de dingen die we ons realiseerden toen we aan dit project begonnen, is dat we niet veel positieve datapunten hebben, " zei Le. "Om clickbait te identificeren, we moeten mensen die trainingsgegevens laten labelen. Er is een behoefte om het aantal positieve datapunten te verhogen, zodat, later, we kunnen betere modellen opleiden."

Hoewel het gemakkelijk kan zijn om clickbait op internet te vinden, de vele variaties van clickbait voegen een extra moeilijkheidsgraad toe, volgens S. Shyam Sundar, James P. Jimirro hoogleraar Media Effects en mededirecteur van het Media Effects Research Laboratory in het Donald P. Bellisario College of Communications, en een ICS-filiaal.

"Er zijn clickbaits die lijsten zijn, of lijstjes; er zijn clickbaits die zijn geformuleerd als vragen; er zijn er die beginnen met wie-wat-waar-wanneer; en allerlei andere varianten van clickbait die we in de loop der jaren in ons onderzoek hebben geïdentificeerd, "zei Sundar. "Dus, het vinden van voldoende monsters van al deze soorten clickbait is een uitdaging. Ook al klagen we allemaal over het aantal clickbaits dat er is, als je eraan toe komt ze te verkrijgen en te labelen, er zijn niet veel van die datasets."

Volgens de onderzoekers is de studie onthulde verschillen in hoe mensen en machines het creëren van koppen benaderden. Vergeleken met de machinaal gegenereerde clickbait, koppen die door mensen werden gegenereerd, hadden doorgaans meer determinanten - woorden als 'welke' en 'dat' - in hun koppen.

Training leek ook te leiden tot verschillen in het maken van clickbait. Bijvoorbeeld, opgeleide schrijvers, zoals journalisten, hadden de neiging om langere woorden en meer voornaamwoorden te gebruiken dan andere deelnemers. Journalisten gebruikten waarschijnlijk ook cijfers om hun koppen te beginnen.

De onderzoekers zijn van plan deze bevindingen te gebruiken om hun onderzoek naar een robuuster nepnieuwsdetectiesysteem te leiden, onder andere toepassingen, volgens Sundar.

"Voor ons, clickbait is slechts een van de vele elementen waaruit nepnieuws bestaat, maar dit onderzoek is een nuttige voorbereidende stap om ervoor te zorgen dat we een goed clickbait-detectiesysteem hebben opgezet, ' zei Sundar.

Om menselijke clickbait-schrijvers voor het onderzoek te vinden, de onderzoekers rekruteerden studenten journalistiek en werknemers van Amazon Turk, een online crowdsource-site. Ze rekruteerden 125 studenten en 85 arbeiders van de site. De deelnemers lazen eerst een definitie van clickbait en werden vervolgens gevraagd een kort artikel van ongeveer 500 woorden te lezen. De deelnemers werd vervolgens gevraagd om voor elk artikel een clickbait-kop te schrijven.

De machine-gegenereerde clickbait-koppen zijn ontwikkeld met behulp van een machine learning-model dat een Variational Autoencoders-of VAE-generatief model wordt genoemd. die afhankelijk is van waarschijnlijkheden om patronen in gegevens te vinden.

De onderzoekers testten hun algoritme tegen de best presterende systemen van Clickbait Challenge 2017, een online clickbait-detectiewedstrijd.