Wetenschap
De auteur van een niet-ondertekende tekst kan worden geïdentificeerd door de relatie tussen slechts enkele woorden van de tekst te analyseren, zoals aangetoond door natuurkundig-statistici van het Instituut voor Kernfysica van de Poolse Academie van Wetenschappen in Krakau. (Bron:IFJ PAN) Krediet:IFJ PAN
Mensen zijn origineler dan ze denken - dit wordt gesuggereerd door een literaire tekstanalysemethode van stylometrie, voorgesteld door wetenschappers van het Institute of Nuclear Physics Polish Academy of Sciences. De eigenheid van de auteur is te zien in de verbanden tussen niet meer dan een dozijn woorden in een Engelse tekst. Het blijkt dat in Slavische talen, identificatie van het auteurschap vereist nog minder woorden, en is zekerder.
De onderzoekers zochten een oplossing voor het probleem van het verifiëren van het auteurschap van historische teksten die alleen bekend waren uit fragmenten, de identificatie van plagiaat, en soortgelijke problemen. Vaak, traditionele stilometrische methoden falen of leiden niet tot voldoende betrouwbare conclusies. In Informatiewetenschappen , wetenschappers van het Instituut voor Kernfysica van de Poolse Academie van Wetenschappen (IFJ PAN) in Krakau presenteren nu hun eigen statistische tool voor stilometrische analyse. Geconstrueerd met behulp van grafieken, het analyseert de structuur van teksten op een kwalitatief nieuwe manier.
"De conclusies van ons onderzoek zijn, aan de ene kant, bemoedigend. Ze geven aan dat de individualiteit van een persoon duidelijk tot uiting komt in de manier waarop ze een verrassend klein aantal woorden gebruiken. Maar er is ook een donkere kant. Omdat blijkt dat mensen zo origineel zijn, het zal gemakkelijker zijn om personen te identificeren aan de hand van hun verklaringen, ", zegt professor Stanislaw Drozdz van de Technische Universiteit van Krakau.
stilometrie, de wetenschap die zich bezighoudt met de statistische kenmerken van de stijl van teksten, is gebaseerd op de observatie dat elke persoon dezelfde taal op enigszins verschillende manieren gebruikt. Sommige hebben een bredere woordenschat, anderen smaller, sommigen geven de voorkeur aan bepaalde zinnen en maken fouten, anderen vermijden herhaling en zijn taalpuristen. En in geschreven tekst, ze verschillen ook in de manier waarop ze interpunctie gebruiken. In de typische stilometrische benadering, de basiskenmerken van een tekst worden meestal onderzocht, inclusief de frequentie van voorkomen van afzonderlijke woorden, terwijl interpunctie wordt genegeerd. Er worden analyses uitgevoerd voor de bestudeerde tekst en voor teksten van potentieel bekende auteurs. De maker wordt geacht de persoon te zijn wiens werken parameters hebben met de waarden die het dichtst in de buurt komen van de waarden die zijn verkregen voor het materiaal dat wordt geïdentificeerd.
"We suggereerden dat de karakteristieke kenmerken van de stijl zouden kunnen worden weergegeven in een netwerkrepresentatie van de tekst, grafieken gebruiken, " legt Tomasz Stanisz uit, doctoraat student aan de IFJ PAN en de eerste auteur van de publicatie. "De grafiek is een verzameling punten of hoekpunten op de grafiek, verbonden door lijnen, dat wil zeggen de randen van de grafiek. In het eenvoudigste geval - in het zogenaamde ongewogen netwerk - komen de hoekpunten overeen met individuele woorden en zijn ze verbonden door randen als en alleen als twee gegeven woorden minstens één keer naast elkaar in de tekst zijn voorgekomen. Bijvoorbeeld, voor de zin 'Jane heeft honger, ' de grafiek zou drie hoekpunten hebben, één voor elk woord, maar er zouden maar twee randen zijn, een tussen 'Jane' en 'is, ' de andere tussen 'is' en 'honger.'"
Tijdens het construeren van hun stilometrische gereedschappen, de onderzoekers testten verschillende soorten grafieken. De beste resultaten werden verkregen voor gewogen grafieken, dat is, die waarin elke rand informatie bevat over het aantal keren dat de corresponderende verbinding tussen woorden voorkomt. Twee parameters bleken het meest bruikbaar in dergelijke netwerken:de knooppuntgraad en de clusteringcoëfficiënt. De eerste beschrijft het aantal randen dat uit een bepaald knooppunt komt en is direct gerelateerd aan het aantal keren dat een bepaald woord in de tekst voorkomt. Beurtelings, de clusteringcoëfficiënt beschrijft de kans dat twee woorden verbonden door een rand met een bepaald woord ook verbonden zijn met een rand ertussen.
Met behulp van op deze manier voorbereide statistische hulpmiddelen, de fysici uit Krakau bekeken 96 boeken:zes romans van acht bekende Engelse auteurs (Austen, Conrad, defoe, Dickens, Doyle, Eliot, Orwell en Twain) en acht Poolse auteurs (Korczak, Kraszewski, Lam, Orzeszkowa, Pruis, Reymont, Sienkiewicz en Zeromski). Onder de auteurs waren twee winnaars van de Nobelprijs voor Literatuur (Wladyslaw Reymont en Henryk Sienkiewicz). Alle teksten zijn afkomstig van internetbronnen:Project Gutenberg, Wikisource en Wolne Lektury. De groep van de IFJ PAN controleerde vervolgens de betrouwbaarheid waarmee het auteurschap van 12 willekeurig geselecteerde werken in één taal kon worden bepaald, behandeling van de rest van de pool van werken als vergelijkingsmateriaal.
"In het geval van Engelse teksten, we hebben de auteurs in bijna 90 procent van de gevallen correct geïdentificeerd. In aanvulling, om succes te behalen, het was nodig om de verbanden tussen slechts 10 tot 12 woorden van de onderzochte tekst te traceren. In tegenstelling tot naïeve intuïtie, een verdere toename van het aantal bestudeerde woorden verhoogde de effectiviteit van de methode niet significant, ' zegt Stanisz.
In het Pools, de bepaling van het auteurschap bleek nog eenvoudiger:er waren slechts vijf tot zes woorden nodig. Opmerkelijk, ondanks het feit dat de pool van significante woorden half zoveel was als in het Engels, de kans op correcte identificatie werd verhoogd tot 95 procent. Dergelijke hoge diagnostische nauwkeurigheid, echter, werd alleen bereikt wanneer leestekens ook als afzonderlijke woorden werden behandeld. In beide talen, het weglaten van interpunctie resulteerde in een significante vermindering van het aantal juiste gissingen. De waargenomen rol van interpunctie is een andere bevestiging van de conclusies uit een publicatie uit 2017 van de groep van Prof. Drozdz, waarin werd aangetoond dat interpunctie een rol speelt in taal die even belangrijk is als de woorden zelf.
"In vergelijking met het Engels, Het Pools lijkt meer mogelijkheden te bieden om de stijl van de auteur te onthullen. We denken dat de andere Slavische talen worden gekenmerkt door vergelijkbare kenmerken. Engels is een positionele taal, wat betekent dat de volgorde van de woorden in een zin belangrijk is. Dit soort taal laat minder ruimte voor een eigen stijl van uitdrukken dan de Slavische talen, in welke verbuiging, of variatie, bepaalt de rol van een woord of zin in een zin. Dit zorgt voor meer vrijheid om de volgorde van woorden in een zin te ordenen, terwijl de betekenis onveranderd blijft, " zegt prof. Drozdz.
Wetenschap © https://nl.scienceaq.com