science >> Wetenschap > >> Elektronica

Een digitaal archief bouwen voor vervallen papieren documenten

Het omzetten van verouderde papieren documenten naar digitale archieven kan een moeizame inspanning zijn. Krediet:Slavenverenigingen Digitaal Archief, CC BY-ND

Papieren documenten zijn nog steeds onschatbare documenten uit het verleden, ook in een digitale wereld. Primaire bronnen opgeslagen in lokale archieven in heel Latijns-Amerika, bijvoorbeeld, een eeuwenoude multi-etnische samenleving beschrijven die worstelt met vragen over ras, klasse en religie.

Echter, papieren archieven zijn kwetsbaar voor overstromingen, vochtigheid, insecten, en knaagdieren, onder andere bedreigingen. Politieke instabiliteit kan het geld dat wordt gebruikt om archieven te onderhouden afsnijden en institutionele verwaarlozing kan kostbare documenten in beschimmeld afval veranderen.

Door nauw samen te werken met collega's van over de hele wereld, Ik bouw digitale archieven en gespecialiseerde tools die ons helpen van die records te leren, die de levens volgen van vrije en tot slaaf gemaakte mensen van Afrikaanse afkomst in Amerika van de jaren 1500 tot de jaren 1800. onze inspanning, het digitale archief van slavenverenigingen, is een van de vele geesteswetenschappelijke projecten die aanzienlijke collecties digitale afbeeldingen van papieren documenten hebben verzameld.

Het doel is ervoor te zorgen dat deze informatie, inclusief enkele documenten die fysiek niet meer bestaan, toegankelijk is voor toekomstige generaties.

Maar het bewaren van de geschiedenis door het maken van hoge resolutie foto's van eeuwenoude documenten is nog maar het begin. Technologische vooruitgang helpt wetenschappers en archivarissen zoals ik om deze documenten beter te bewaren en ervan te leren, maar maak het je niet altijd makkelijk.

Een archief in Cuba bevat papieren schatten die moeilijk te gebruiken en te bestuderen zijn - zelfs in persoon. Krediet:Slavenverenigingen Digitaal Archief, CC BY-ND

Documenten verzamelen

Sinds 2003, het Slave Societies Digital Archive heeft meer dan 700 verzameld, 000 gedigitaliseerde afbeeldingen van historische documenten die de levens van miljoenen Afrikanen en mensen van Afrikaanse afkomst in Noord- en Zuid-Amerika documenteren.

Leden van het kernteam, van universiteiten in de VS, Canada, en Brazilië, reizen naar projectlocaties in heel Latijns-Amerika, waar ze lokale studenten en archivarissen opleiden om kerkelijke en overheidsarchieven uit hun gemeenschappen te digitaliseren. We geven deze gemeenschappen de camera's, computers en andere hardware die ze nodig hebben om documenten digitaal te bewaren in de hoeken van 18e-eeuwse kerkkelders, of op het punt staat te worden weggegooid door de ruimte-verpletterde gemeentelijke archieven.

We leren ze ook een cruciale vaardigheid voor archiveren en terugvinden:hoe metadata te creëren, de beschrijvende informatie om mensen te helpen vinden wat hen interesseert, zoals of een document een huwelijksakte of een doopakte is, en uit welk jaar en stad het komt. Met goede metadata kunnen bezoekers van de projectwebsite, bijvoorbeeld, zoek naar alle doopgegevens uit het 17e-eeuwse Colombia.

Van digitalisering tot conservering

Overuren, we zijn veel beter geworden in het digitaliseren van documenten. Op oudere afbeeldingen is het is niet ongewoon om de vinger van de fotograaf vanaf de zijkant van het frame naar binnen te zien dwalen. Sommige van die oudere afbeeldingen worden opgeslagen als JPEG-bestanden met een relatief lage resolutie, een indeling die de grootte van het afbeeldingsbestand comprimeert door enkele gegevens te verwijderen wanneer deze worden opgeslagen. De meeste van die bestanden zijn nog steeds volledig leesbaar, zelfs wanneer een kijker inzoomt, maar sommige zijn dat niet en zullen in de toekomst opnieuw moeten worden gedigitaliseerd.

Veel mensen doen mee, zowel lesgeven als leren hoe documenten correct te fotograferen. Krediet:Slavenverenigingen Digitaal Archief, CC BY-ND

Onze recentere bewaring voldoet aan de strenge normen van de British Library, waarmee een groot deel van ons werk wordt gefinancierd. Die beelden worden genomen in zeer hoge resoluties en opgeslagen in meerdere bestandsformaten, waaronder TIFF, die de archiefstandaard blijft.

Het transformeren van een verzameling gedigitaliseerde afbeeldingen in een echt digitaal archief is een tijdrovende en gedetailleerde inspanning. Vroeg in dit proces, we kwamen een merkwaardig probleem tegen met foto's die tijdens onze eerste paar digitaliseringsinspanningen waren genomen. Moderne software interpreteerde de oriëntatie van deze afbeeldingen vaak verkeerd, waardoor we pagina's 90 graden naar rechts of links of zelfs helemaal ondersteboven hebben gedraaid. In gevallen waarin een volledig volume op dezelfde onjuiste manier werd geroteerd, het kan automatisch worden opgelost, maar andere met een scala aan fouten moesten met de hand worden gecorrigeerd om onderzoekers gemakkelijker met het materiaal te laten werken.

We hebben ook geconstateerd dat namen van gegevensbestanden problemen kunnen veroorzaken. Veel camera's kennen standaardnamen voor afbeeldingen toe, zoals DSCN9126.jpg, die niet handig zijn om uit te zoeken wat de afbeeldingen zijn. We moeten elke afbeelding hernoemen op een standaard manier die aangeeft hoe deze in onze collectie past.

Voorlopig hebben we ervoor gekozen om de afbeeldingen gewoon opeenvolgend te nummeren binnen elk volume; een andere redelijke optie zou zijn om elk van deze nummers te laten voorafgaan door een ID die verwijst naar het volume waar de afbeelding vandaan komt.

Dit zijn geen grote hindernissen, maar zij en anderen in dezelfde lijn hebben enige tijd nodig om erachter te komen en op de juiste manier aan te pakken. Maar deze inspanning loont wanneer mensen die de collectie willen verkennen, onze afbeeldingen gemakkelijker kunnen vinden en gebruiken.

Met zorg, digitale bewaring kan afbrokkelende documenten nieuw leven inblazen. Krediet:Slavenverenigingen Digitaal Archief, CC BY-ND

Waar ze op te slaan?

Zodra we de beelden hebben vastgelegd, we moeten ze ergens bewaren.

Momenteel, de collectie Slave Societies Digital Archive beslaat bijna 20 terabyte - ongeveer de ruimte die nodig is om alle tekst in de Library of Congress op te slaan.

Weinig instellingen hebben de middelen, personeel of expertise die nodig is om geesteswetenschappelijke gegevens op zulke grote schaal op te slaan. Gegevensopslag is niet exorbitant duur, maar het is ook niet goedkoop, vooral wanneer de gegevens regelmatig moeten worden geopend, in plaats van te worden opgeslagen in een statische back-up of archiefkopie.

Voor vele jaren, de Vanderbilt University Library hostte de gegevens, maar we ontgroeiden wat die organisatie zich kon veroorloven. We had been backing up many of our most important records on the Digital Preservation Network, a consortium of universities that pooled resources to fund a reliable digital storage system for scholarly production. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. Momenteel, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Als resultaat, we're far less likely to lose our data than at any previous point in the project's history.

If you can read this, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

Opening access

Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

Voor meerdere jaren, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 uur.

Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.

Stijgende Duitse autoproductie luidt jaar van transformatie in

Het potentieel van supercomputers volledig benutten

Hoofdlijnen

Wetenschap

Elektronica
Biologie
Zonsverduistering
Wiskunde
French | Italian | Spanish | Portuguese | Swedish | German | Dutch | Danish | Norway |