science >> Wetenschap >  >> Elektronica

Wat kan Wikipedia ons vertellen over menselijke interactie?

In deze datavisualisatie elk knooppunt vertegenwoordigt een groep Wikipedia-pagina's over een onderwerp dat verband houdt met wereldgebeurtenissen van 2015. Bloemblaadjes worden gevormd door knooppunten van een bepaald onderwerp te groeperen. Krediet:Kirell Benzi

EPFL-onderzoekers hebben de dynamiek van netwerkstructuren bestudeerd met behulp van een van 's werelds meest bezochte websites:Wikipedia. Naast een beter begrip van online netwerken, hun werk brengt spannende inzichten in menselijk sociaal gedrag en het collectieve geheugen.

Heb je ooit een Wikipedia-pagina bezocht om een ​​vraag te beantwoorden, alleen om te merken dat u van pagina naar pagina klikt, totdat je op een onderwerp komt dat heel anders is dan het onderwerp waarmee je begon? Als, niet alleen ben je niet alleen, maar de kans is groot dat andere mensen dezelfde rotonde hebben genomen van, zeggen, "Game of Thrones" tot "Dubrovnik" tot "toeristische attractie" tot "'s werelds grootste bal van touw."

Onderzoekers in het Signal Processing Laboratory (LTS2) onder leiding van professor Pierre Vandergheynst in de EPFL School of Engineering (STI) en School of Computer and Communication Sciences (IC) wilden weten hoe dit proces werkt.

Specifieker, ze wilden de dynamiek van de netwerkstructuur bestuderen met behulp van signaalverwerking en netwerktheorie, het ontwikkelen van een algoritme om automatisch ongebruikelijke activiteit te detecteren in voortdurend veranderende, complexe systemen zoals Wikipedia.

"Het brein van de mensheid"

De mogelijkheid om afwijkende gebeurtenissen in online netwerken te detecteren en te bestuderen, bijvoorbeeld een plotselinge piek in het aantal bezoeken aan een bepaalde Wikipedia-pagina gedurende een bepaalde periode - zou ons veel kunnen vertellen over menselijke interactie, collectief gedrag, geheugen en informatie-uitwisseling, zeggen de onderzoekers.

Deze datavisualisatie toont Wikipedia-pagina's over GoT-acteurs, personages en afleveringen. Krediet:LTS2/EPFL

"Ons idee was om Wikipedia voor te stellen als het brein van de mensheid, waar paginabezoeken vergelijkbaar zijn met pieken in hersenactiviteit, " zegt Volodymyr Miz, een onderzoeker en Ph.D. student in de LTS2. Miz is de hoofdauteur van een artikel over het nieuwe algoritme, die onlangs werd gepresenteerd op The Web Conference 2019 in San Francisco, Californië, ONS..

Co-auteur Kirell Benzi, een voormalig LTS2-onderzoeker en EPFL-docent datavisualisatie nu werkzaam als datakunstenaar, voegde eraan toe dat wat Wikipedia zo aantrekkelijk maakte als gegevensbron, de toegankelijkheid en omvang was.

"Wikipedia heeft alleen al voor Engels zo'n 5 miljard bezoeken per jaar. Met deze techniek kunnen we kunnen groepen pagina's identificeren die bij elkaar horen, " hij zei.

Van collectief geheugen naar nepnieuws

Het algoritme van de onderzoekers is uniek omdat het niet alleen zulke afwijkende gebeurtenissen kan identificeren, maar geeft ook inzicht in precies waar, hoe, en waarom ze zijn gebeurd.

“Het kernverschil is dat we door de netwerkstructuur meer context bieden. als we kijken naar Wikipedia-pagina's over de terroristische aanslagen van 2015 in Parijs, we kunnen zien dat de pagina over de aanslag direct verbonden is met de pagina over Charlie Hebdo magazine, en ook naar een cluster van pagina's die terroristische organisaties vertegenwoordigen, " legt Miz uit.

Fluctuaties in bezoeken aan Wikipedia-pagina's voor twee GoT-personages in de loop van de tijd. Krediet:LTS2/EPFL

Benzi en Miz noemen dit soort informatie zoeken "collectief geheugen, " omdat het kan onthullen hoe actuele gebeurtenissen herinneringen aan het verleden oproepen.

"Het Wikipedia-onderzoek gaat over het proberen nieuwe bevindingen over de menselijke natuur zelf te onderzoeken. Wikipedia is een zeer interessante dataset omdat het min of meer weerspiegelt wat wij als mensheid besluiten te onthouden. Gezamenlijk, we hebben dezelfde gedachtegang en bladeren door dezelfde onderwerpen, "zegt Benzi.

Dus, welke onderwerpen vinden mensen het belangrijkst, volgens dit onderzoek? Kortom:andere mensen.

"Ongeveer 80% van de bezoeken zijn voor amusement of beroemdheden. In eerder onderzoek, we hebben ontdekt dat 40% van alle links waarop wordt geklikt over mensen en hun relaties gaat, "Benzi zegt, eraan toevoegend dat minder dan 1% van de bezoeken betrekking hebben op onderwerpen die verband houden met de wetenschap.

De LTS2 werkt momenteel samen met ontwikkelaars van de gratis offline webbrowser Kiwix, die tot doel heeft gecomprimeerde versies van Wikipedia te brengen aan mensen zonder vrije toegang tot internet.

"Onze methode zou voor Kiwix zeer nuttig kunnen zijn om alleen relevante delen van Wikipedia te identificeren en te comprimeren, gebaseerd op taal en cultuur, bijvoorbeeld, "zegt Miz.

Andere toepassingen van het algoritme zijn onder meer het bestuderen van de verspreiding van nepnieuws op Twitter door pieken in retweets te volgen, of het begrijpen van verbanden tussen de dynamiek van e-mailnetwerken en gebeurtenissen in de echte wereld. Echter, deze onderwerpen zijn moeilijker te bestuderen dan Wikipedia vanwege de kleinere hoeveelheden vrij beschikbare gegevens.

Deze datavisualisatie toont Wikipedia-pagina's over GoT-acteurs, personages en afleveringen. Krediet:LTS2/EPFL

Casestudy:Game of Thrones

mevrouw, Benzi en hun collega's gebruikten hun methode om als voorbeeld afwijkende activiteit te detecteren op Wikipedia-pagina's met betrekking tot het laatste seizoen van de HBO-hitshow Game of Thrones. Met de resulterende open dataset konden ze datavisualisaties maken van pagina's met betrekking tot verschillende aspecten van de show, inclusief acteurs, karakters, seizoenen, afleveringen, en andere onderwerpen.

De onderzoekers konden de methode ook gebruiken om de populariteit van personages te bepalen op basis van het aantal bezoeken aan hun Wikipedia-pagina's in de loop van de tijd, en proberen momenteel te zien welke andere pagina's zijn geactiveerd door de dood van een bepaald personage in de show. Dit werk bouwt voort op een soortgelijke poging in 2016 om het Star Wars-universum te analyseren.

Benzi merkt op dat het onderzoek een uitstekend voorbeeld is van digitale geesteswetenschappen, waarin data science methoden en digitale technologieën worden toegepast op de sociologie, literatuur, geschiedenis en andere geesteswetenschappen.

"Digital humanities is een heel interessant vakgebied, maar het werkt alleen als je een combinatie hebt van verschillende vaardigheden uit datawetenschap, Engineering, psychologie, sociologie, kunst enzovoort. Dus, een van de voordelen is dat we kunnen samenwerken tussen laboratoria, "zegt Benzi.