science >> Wetenschap >  >> anders

Hoe AI kan helpen de geschreven taal van oude beschavingen te vertalen

De OI begon in de jaren dertig met archeologische expedities naar de oude stad Persepolis, waar ze tienduizenden kleitabletten met spijkerschrift ontdekten. Een samenwerking tussen de OI en de afdeling Informatica met behulp van een machine learning-programma zou een snellere vertaling van deze tablets mogelijk maken. Krediet:de OI

Vijfentwintig eeuwen geleden, het "papierwerk" van Perzië's Achaemenidische rijk werd vastgelegd op kleitabletten - waarvan tienduizenden in 1933 werden ontdekt in het hedendaagse Iran door archeologen van het Oriental Institute van de Universiteit van Chicago. Al decenia, onderzoekers hebben deze oude documenten nauwgezet met de hand bestudeerd en vertaald, maar dit handmatige ontcijferingsproces is erg moeilijk, traag en gevoelig voor fouten.

Sinds de jaren 1990, wetenschappers hebben computers aangeworven om te helpen - met beperkt succes, vanwege het driedimensionale karakter van de tabletten en de complexiteit van de spijkerschrifttekens. Maar een technologische doorbraak aan de Universiteit van Chicago kan eindelijk een geautomatiseerde transcriptie van deze tabletten mogelijk maken - die rijke informatie over de geschiedenis van de Achaemeniden onthullen, samenleving en taal - mogelijk, archeologen vrijmaken voor analyse op een hoger niveau.

Dat is de motivatie achter DeepScribe, een samenwerking tussen onderzoekers van de OI en de afdeling Computerwetenschappen van UChicago. Met een trainingsset van meer dan 6, 000 geannoteerde afbeeldingen uit het Persepolis Fortification Archive, het door het Center for Data and Computing gefinancierde project zal een model bouwen dat nog niet geanalyseerde tablets in de collectie kan "lezen", en mogelijk een hulpmiddel dat archeologen kunnen aanpassen aan andere studies van oud schrift.

"Als we een tool zouden kunnen bedenken die flexibel en uitbreidbaar is, die zich kan verspreiden naar verschillende scripts en tijdsperioden, dat zou echt van veld veranderen, zei Susanne Paulus, universitair hoofddocent Assyriologie.

'Het is een goed machine learning-probleem'

De samenwerking begon toen Paulus, Sandra Schloen en Miller Prosser van de OI ontmoetten Asst. Prof. Sanjay Krishnan van de afdeling Computerwetenschappen op een evenement van het Neubauer Collegium over digitale geesteswetenschappen. Schloen en Prosser houden toezicht op OCHRE, een door het OI ondersteund databasebeheerplatform om gegevens van archeologische opgravingen en andere vormen van onderzoek vast te leggen en te ordenen. Krishnan past deep learning en AI-technieken toe op data-analyse, inclusief video en andere complexe gegevenstypen. De overlap was voor beide partijen meteen duidelijk.

"Vanuit het perspectief van de computervisie, het is echt interessant omdat dit dezelfde uitdagingen zijn waarmee we worden geconfronteerd. Computervisie is de afgelopen vijf jaar zo aanzienlijk verbeterd; tien jaar geleden, dit zou met de hand golvend zijn geweest, zo ver zouden we niet gekomen zijn, "Zei Krishnan. "Het is een goed machine-leerprobleem, omdat de nauwkeurigheid hier objectief is, we hebben een gelabelde trainingsset en we begrijpen het script redelijk goed en dat helpt ons. Het is geen volledig onbekend probleem."

Afgebeeld zijn hotspots met spijkerschrifttekens op een Elamitische tablet uit het Persepolis Fortification Archive. Krediet:de OI

Die trainingsset is te danken aan meer dan 80 jaar nauwgezette studie door OI- en UChicago-onderzoekers en een recente poging om afbeeldingen met hoge resolutie van de tabletcollectie - momenteel meer dan 60 terabyte en nog steeds groeiend - te digitaliseren voordat ze terugkeren naar Iran. Met behulp van deze collectie, onderzoekers creëerden een woordenboek van de Elamitische taal die op de tablets stond, en studenten die spijkerschrift leerden ontcijferen bouwden een database van meer dan 100, 000 "hotspots, " of geïdentificeerde individuele tekens.

Met middelen van het UChicago Research Computing Center, Krishnan gebruikte deze geannoteerde dataset om een ​​machine learning-model te trainen, vergelijkbaar met die gebruikt in andere computer vision-projecten. Bij testen op tablets die niet in de trainingsset zitten, het model kon met succes spijkerschrifttekens ontcijferen met een nauwkeurigheid van ongeveer 80%. Lopend onderzoek zal proberen dat aantal naar een hoger niveau te tillen en tegelijkertijd te onderzoeken wat verantwoordelijk is voor de resterende 20%.

Veel digitaal zwaar tillen

Maar zelfs 80% nauwkeurigheid kan onmiddellijk helpen bij transcriptie-inspanningen. Veel van de tablets beschrijven elementaire commerciële transacties, vergelijkbaar met "een doos met Walmart-bonnen, " zei Paulus. En een systeem dat niet helemaal kan beslissen, kan nog steeds nuttig zijn.

"Als de computer de zeer repetitieve delen zou kunnen vertalen of identificeren en het aan een expert zou overlaten om de moeilijke plaatsnamen of werkwoorden of dingen in te vullen die enige interpretatie behoeven, dat scheelt een hoop werk, " zei Paulus, de Tablet Collection Curator bij de OI. "En als de computer geen definitieve beslissing kan nemen, als het ons kansen zou kunnen geven of de hoogste vier rangen, dan heeft een expert een plek om te beginnen. Dat zou geweldig zijn."

Nog ambitieuzer, het team stelt zich DeepScribe voor als een ontcijferingstool voor algemeen gebruik dat ze kunnen delen met andere archeologen. Misschien kan het model worden omgeschoold voor andere spijkerschrifttalen dan Elamitisch, of kan weloverwogen suggesties doen over welke tekst is geschreven op ontbrekende stukjes onvolledige tabletten. Een machine learning-model kan ook helpen bij het bepalen van de oorsprong van tablets en andere artefacten van onbekende herkomst, een taak die momenteel wordt aangepakt door chemische tests.

Soortgelijke door CDAC gefinancierde projecten gebruiken computervisiebenaderingen voor toepassingen, zoals het bestuderen van de biodiversiteit in mariene tweekleppigen en het ontwarren van stijl van inhoud in artistiek werk. De samenwerking hoopt ook toekomstige partnerschappen tussen het OI en het departement Computerwetenschappen te inspireren, aangezien digitale archeologie steeds meer samengaat met geavanceerde computationele benaderingen.

"Ik denk dat het hielp dat iets dat bij een etentje zou zijn geëindigd, een echte samenwerking werd, "Zei Krishnan. "Het heeft ons ertoe gebracht meer te doen dan praten."