science >> Wetenschap >  >> Elektronica

OCR4all:Moderne tool voor oude teksten

Pagina uit een Franse versie van de "Narrenschiff" (schip der dwazen). Dergelijke oude lettertypen kunnen met OCR4all betrouwbaar worden omgezet in voor de computer leesbare tekst. Krediet:Staats- en Universiteitsbibliotheek van Dresden, CC BY-SA 4.0

Historici en andere geesteswetenschappers hebben vaak te maken met lastige onderzoeksobjecten:eeuwenoude drukwerken die moeilijk te ontcijferen zijn en vaak in een onbevredigende staat van bewaring verkeren. Veel van deze documenten zijn nu gedigitaliseerd - meestal gefotografeerd of gescand - en zijn wereldwijd online beschikbaar. Voor onderzoeksdoeleinden, dit is al een stap vooruit.

Echter, er moet nog een uitdaging worden overwonnen:de gedigitaliseerde oude fonts in een moderne vorm brengen met tekstherkenningssoftware die zowel voor niet-specialisten als voor computers leesbaar is. Wetenschappers van het Centrum voor Filologie en Digitaliteit aan de Julius-Maximilians-Universität Würzburg (JMU) in Beieren, Duitsland, hebben een belangrijke bijdrage geleverd aan de verdere ontwikkeling op dit gebied.

Met OCR4all, het JMU-onderzoeksteam stelt een nieuwe tool ter beschikking van de wetenschappelijke gemeenschap. Het zet gedigitaliseerde historische afdrukken met een foutenpercentage van minder dan één procent om in computerleesbare teksten. En het biedt een grafische gebruikersinterface die geen IT-expertise vereist. Met eerdere tools van dit soort, gebruiksvriendelijkheid was niet altijd vanzelfsprekend, aangezien de gebruikers vooral met programmeercommando's moesten werken.

Ontwikkeld in samenwerking met geesteswetenschappen

De nieuwe OCR4all-tool is ontwikkeld onder leiding van Christian Reul samen met zijn informatica-collega's professor Frank Puppe (voorzitter Kunstmatige Intelligentie en Toegepaste informatica) en Christoph Wick, evenals Uwe Springmann (expert Digital Humanities) en tal van studenten en assistenten.

OCR4all is ontstaan ​​uit het JMU Kallimachos project, die wordt gefinancierd door het Duitse federale ministerie van Onderwijs en Onderzoek. Deze samenwerking tussen geesteswetenschappen en informatica wordt voortgezet en geïnstitutionaliseerd in het nieuw opgerichte JMU Centre for Philology and Digitality.

Bij de ontwikkeling van OCR4all, computerwetenschappers hebben samengewerkt met de geesteswetenschappen van JMU, waaronder Duitse en Romaanse studies en literatuurstudies in het project 'Narragonien digital'. Het doel was om het "Narrenschiff, "een morele satire van Sebastian Brant, een bestseller uit de 15e eeuw die in vele talen werd vertaald. Verder, OCR4all is veelvuldig gebruikt in de Kolleg "Middeleeuwse en vroegmoderne tijd" van de JMU.

OCR4all is vrij beschikbaar voor het publiek op het GitHub-platform (met instructies en voorbeelden):https://github.com/OCR4all

Elke drukkerij had zijn eigen lettertype

Christian Reul legt uit wat de uitdagingen zijn bij de ontwikkeling van OCR4all:Automatische tekstherkenning (OCR =Optical Character Recognition) werkt al een tijdje heel goed voor moderne lettertypen. Echter, dit is nog niet het geval geweest voor historische lettertypen.

"Een van de grootste problemen was typografie, ", zegt Reul. Een van de redenen hiervoor is dat de eerste drukkers van de 15e eeuw geen uniforme lettertypen gebruikten. "Hun drukzegels waren allemaal zelf gesneden, elke drukkerij had praktisch zijn eigen brieven."

Foutpercentages onder één procent

Of "e" of "c, " of "v" of "r" - het is vaak niet gemakkelijk te onderscheiden in oude prenten, maar software kan zulke subtiliteiten leren herkennen. Om dit te doen, het moet worden getraind op monstermateriaal. In zijn werk, Reul heeft methodes ontwikkeld om het trainen efficiënter te maken. In een casus met zes historische prenten uit de jaren 1476 tot 1572, het gemiddelde foutenpercentage bij automatische tekstherkenning daalde van 3,9 naar 1,7 procent.

Niet alleen werd de methodiek verbeterd, JMU computerwetenschapper Christoph Wick heeft ook de technische component verder verfijnd door de Calamari OCR-tool te ontwikkelen, die ook vrij beschikbaar is en inmiddels volledig is geïntegreerd in OCR4all, nog betere resultaten beloven. Nutsvoorzieningen, zelfs voor de oudste gedrukte werken, foutenpercentages van minder dan één procent kunnen in het algemeen worden bereikt.

Lexicale projecten

Reul heeft ook externe partners overtuigd van de kwaliteit van het OCR-onderzoek in Würzburg. In samenwerking met het "Zentrum für digitale Lexikographie der deutschen Sprache" (Berlijn), Daniel Sanders' "Wörterbuch der deutschen Sprache" (Woordenboek van de Duitse taal) is digitaal geïndexeerd, en een wetenschappelijke publicatie over dit werk wordt momenteel voorbereid. De verschillende regels van deze tekst bevatten vaak verschillende lettertypen, verschillende semantische informatie vertegenwoordigen. Hier, de bestaande benadering van tekenherkenning werd zodanig uitgebreid dat niet alleen de tekst maar ook de typografie en daarmee de complexe inhoudsstructuur van het lexicon zeer nauwkeurig kan worden weergegeven.

De informaticus uit Würzburg rondt binnenkort zijn proefschrift af, maar hij is ook bereid om in de toekomst met OCR te blijven werken:"De informatica achter OCR is buitengewoon spannend, ', zegt hij. Een mogelijk project in de nabije toekomst:de makers van de 'Idiotikon, " een woordenboek van de Zwitsers-Duitse taal, hebben aangegeven geïnteresseerd te zijn in samenwerking omdat ze wellicht de specialistische kennis van Würzburg nodig hebben.