Wetenschap
Krediet:CC0 Publiek Domein
Hebben sociale media de Avengers' Endgame-film voor je verpest? Of misschien een van de Game of Thrones-boeken? Een team van onderzoekers van de Universiteit van Californië in San Diego werkt eraan om ervoor te zorgen dat dit niet meer gebeurt. Ze hebben een op AI gebaseerd systeem ontwikkeld dat spoilers in online recensies van boeken en tv-programma's kan markeren.
"Spoilers zijn overal op internet, en komen veel voor op sociale media. Als internetgebruikers, we begrijpen de pijn van spoilers, en hoe ze iemands ervaring kunnen verpesten, " zei Ndapa Nakashole, een professor in computerwetenschappen aan UC San Diego en een van de senior auteurs van het artikel.
Op sommige websites kunnen mensen hun berichten handmatig markeren met tags die dienen als 'spoiler vooruit'-waarschuwingsborden. Maar dit gebeurt niet altijd. Dus wilden onderzoekers een tool voor kunstmatige intelligentie ontwikkelen, aangedreven door neurale netwerken om automatisch spoilers te detecteren. Ze noemden de tool SpoilerNet.
Op theoretisch vlak is onderzoekers willen beter begrijpen hoe mensen spoilers schrijven en welke taalpatronen en algemene kennis een zin als spoiler markeren.
Onderzoekers zullen hun bevindingen presenteren op de jaarvergadering van 2019 van de Association for Computational Linguistics in Florence, Italië, 28 juli tot 2 aug. De tool die de onderzoekers ontwikkelden, zou kunnen worden gebruikt om een browserextensie te bouwen om mensen te beschermen tegen spoilers.
Om SpoilerNet te trainen en te testen, het UC San Diego-team ging op zoek naar grote datasets van zinnen met spoilers. Spoiler alert! Ze vonden er geen. Dus creëerden ze hun eigen boek door meer dan 1,3 miljoen boekrecensies te verzamelen, geannoteerd met spoilertags door boekrecensenten. De tags omvatten zinnen die spoilers bevatten en verbergen deze achter een "view spoiler"-link in de tekst. De recensies zijn verzameld op Goodreads, een sociale netwerksite waarmee mensen kunnen volgen wat ze lezen, en deel gedachten en recensies met andere lezers.
"Voor zover we weten, dit is de eerste dataset met spoilerannotaties op deze schaal en met zo'n fijnmazige granulariteit, " zei Mengting Wan, een doctoraat student computerwetenschappen aan UC San Diego en de eerste auteur van de paper.
Onderzoekers ontdekten dat spoilerzinnen de neiging hebben om samen te klonteren in het laatste deel van beoordelingen. Maar ze ontdekten ook dat verschillende gebruikers verschillende normen hadden om spoilers te taggen, en neurale netwerken moesten zorgvuldig worden gekalibreerd om hiermee rekening te houden.
In aanvulling, hetzelfde woord kan verschillende semantische betekenissen hebben in verschillende contexten. Bijvoorbeeld, 'groen' is slechts een kleur in één boekrecensie, maar het kan de naam zijn van een belangrijk personage en een signaal voor spoilers in een ander boek. Het identificeren en begrijpen van deze verschillen is een uitdaging, zei Wan.
Onderzoekers trainden SpoilerNet op 80 procent van de recensies op Goodreads, de tekst door verschillende lagen van neurale netwerken laten lopen. Het systeem kon spoilers detecteren met een nauwkeurigheid van 89 tot 92 procent.
Ze lieten ook SpoilerNet draaien op een dataset van meer dan 16, 000 recensies in één zin van ongeveer 880 tv-programma's. De nauwkeurigheid van de tool om spoilers te detecteren was 74 tot 80 procent.
De meeste fouten kwamen doordat het systeem werd afgeleid door woorden die gewoonlijk geladen en onthullend zijn, bijvoorbeeld moord of vermoord.
Ergens naar uitkijken, de Goodreads-dataset kan worden gebruikt als een krachtig hulpmiddel om algoritmen te trainen om spoilers in verschillende soorten inhoud te detecteren, bijvoorbeeld, tweets met spoilers.
Wetenschap © https://nl.scienceaq.com