science >> Wetenschap >  >> Elektronica

Wat gebeurt er als datawetenschappers drie eeuwen Robinson Crusoe doornemen?

Lezen 1, Meer dan 400 edities van "Robinson Crusoe" in één zomer is onmogelijk. Dus een team van studenten probeerde computers te trainen om het voor hen te doen. Krediet:Duke Research Blog

Sinds Daniel Defoe's scheepswrakverhaal "Robinson Crusoe" bijna 300 jaar geleden voor het eerst werd gepubliceerd, duizenden edities en spin-offversies zijn gepubliceerd, in honderden talen.

Een onderzoeksteam onder leiding van Grant Glass, een doctoraat student Engels en vergelijkende literatuurwetenschap aan de Universiteit van North Carolina in Chapel Hill, wilde weten hoe het verhaal veranderde terwijl het door verschillende edities ging, imitaties en vertalingen, en om te zien welke onderdelen de tand des tijds hebben doorstaan.

Het zou jaren duren om ze allemaal te lezen in een tempo van één per dag. In plaats daarvan, de onderzoekers trainen computers om het voor hen te doen.

Deze zomer, Het team van Glass in het Data+ zomeronderzoeksprogramma gebruikte computeralgoritmen en machine learning-technieken om 1 482 full-text versies van Robinson Crusoe, samengesteld uit online archieven.

"Vaak denken we aan een boek als in steen gebeiteld, ' zei Glass. 'Maar een project als dit laat zien dat het rommelig is. Er zit veel variatie in."

"Als je een boek oppakt, is het belangrijk om te weten welk exemplaar het is, omdat dat van invloed kan zijn op de manier waarop je over het verhaal denkt, ' zei Glas.

Alleen de teksten in een vorm krijgen die een computer kan verwerken, bleek het halve werk, zei niet-gegradueerd teamlid Orgil Batzaya, een Duke dubbele major in wiskunde en informatica.

Krediet:Duke Research Blog

De boeken waren al gescand en online gezet, dus gebruikten de leerlingen software om de scans van internet te downloaden, via een proces dat 'schrapen' wordt genoemd. Maar het verwerken van de gescande pagina's van oude gedrukte boeken, waarvan sommige vlekken hadden, vlekjes of versleten type, en het omzetten ervan naar een machinaal leesbaar formaat bleek lastiger dan ze dachten.

De software had moeite om de vreemde spellingen te decoderen ("deliver'd, " " had gewild, " "overtuigingen, " "kust" versus "shoar"), verschillende lettertypen tussen edities, en andere eigenaardigheden.

Speciale tekens die uniek zijn voor lettertypen uit de 18e eeuw, zoals de merkwaardige f-vormige versie van de letter "s, " laat zelfs mensen "diftance" en "poffible" lezen met een mentale lisp.

Hun eerste pogingen leverden gobbledygook op. "De resulterende optische tekenherkenning was volledig onbruikbaar, "zei teamlid en Duke senior Gabriel Guedes.

Tijdens een Data+ postersessie in augustus, gasten, Batzaya en geschiedenis en computerwetenschap dubbelmajoor Lucian Li presenteerden hun eerste resultaten:een verzameling kleurrijke spreidingsdiagrammen, kaarten, stroomdiagrammen en lijngrafieken.

Krediet:Duke Research Blog

Guedes wees naar clusters van stippen op een netwerkgrafiek. "Hier, de rode edities zijn Amerikaans, de blauwe edities komen uit de U.K., "Zei Guedes. "De netwerkgrafiek herkent de gelijkenis tussen al deze edities en klontert ze samen."

Nadat ze de gescande pagina's hadden omgezet in machineleesbare teksten, het team voerde ze in een machine learning-algoritme dat de gelijkenis tussen documenten meet.

Het algoritme neemt stukjes tekst op - zinnen, alinea's, zelfs hele romans - en zet ze om in hoogdimensionale vectoren.

Door deze numerieke weergave van elk boek te maken, Guedes zei, maakte het mogelijk om er wiskundige bewerkingen op uit te voeren. Ze telden de vectoren voor elk boek op om hun som te vinden, het gemiddelde berekend, en keek welke editie het dichtst bij de "gemiddelde" editie lag. Het bleek een versie van Robinson Crusoe te zijn die in 1875 in Glasgow werd gepubliceerd.

Ze analyseerden ook het belang van specifieke plotpunten bij het bepalen van de nabijheid van een bepaalde editie tot de "gemiddelde" editie:hoe zit het met het moment waarop Crusoe een voetafdruk in het zand ziet en beseft dat hij niet de enige is? Of de tijd dat Crusoe en Friday, na het verlaten van het eiland, vechten tegen hongerige wolven in de Pyreneeën?

Krediet:Duke Research Blog

De resultaten van het team kunnen schokkend zijn voor degenen die niet gewend zijn om 300 jaar publiceren te zien teruggebracht tot een staafdiagram. Maar door computers te gebruiken om duizenden boeken tegelijk te vergelijken, "digitale geesteswetenschappen"-wetenschappers zeggen dat het mogelijk is om grootschalige patronen en trends te traceren die mensen die zich over individuele boeken buigen niet kunnen.

"Dit is echt iets wat alleen een computer kan doen, "Guedes zei, wijzend naar een time-lapse-kaart die laat zien hoe het Crusoe-verhaal zich over de wereld verspreidde, opgebouwd uit gegevens over de plaats en datum van publicatie voor 15, 000 edities.

"Het is een vorm van 'lezen op afstand', "Zei Guedes. "Je gebruikt deze enorme hoeveelheid informatie om conclusies te trekken over de publicatiegeschiedenis, de beweging van ideeën, en kennis in het algemeen door de tijd heen."