Wetenschap
Softwaretools kunnen meerdere talen naar geheel nieuwe ruimtes brengen. Krediet:Zubada/Shutterstock
We leven in een wereld waar ongeveer 7000 talen worden gesproken, en een waar informatie- en communicatietechnologieën steeds alomtegenwoordiger worden. Dit stelt steeds meer eisen aan meer, en geavanceerder, Human Language Technologies (HLT's).
Deze technologieën omvatten computationele methoden, computerprogramma's en elektronische apparaten die gespecialiseerd zijn voor het analyseren, het produceren of wijzigen van teksten en spraak.
Het omgaan met een taal als Engels wordt gemakkelijker gemaakt dankzij de vele hulpmiddelen om u te ondersteunen, zoals spellingcontrole in browsers en automatisch aanvullen voor sms-berichten. Dit komt vooral omdat het Engels een relatief eenvoudige en goed onderzochte grammatica heeft, meer gegevens waar software van kan leren, en substantiële financiering om instrumenten te ontwikkelen. De situatie is enigszins tot heel anders voor de meeste talen in de wereld.
Dit begint te veranderen. Winstgedreven multinationals zoals Google, Facebook en Microsoft, bijvoorbeeld, hebben geïnvesteerd in de ontwikkeling van HLT's, ook voor Afrikaanse talen.
Onderzoekers en wetenschappers, Ikzelf inbegrepen zijn ook bezig met het onderzoeken en creëren van deze technologieën. Het heeft een directe relevantie voor de samenleving:talen, en de identiteiten en culturen die ermee verweven zijn, zijn een nationale hulpbron voor elk land. In een land als Zuid-Afrika, het leren van verschillende talen kan cohesie en inclusie bevorderen.
Gewoon een taal leren, echter, is niet genoeg als er geen infrastructuur is om het te ondersteunen. Bijvoorbeeld, wat heeft het voor zin om op internet te zoeken, zeggen, isiXhosa wanneer de algoritmen van de zoekmachine de woorden toch niet goed kunnen verwerken en dus niet de resultaten zullen opleveren waarnaar u op zoek bent? Waar zijn de spellingcontroles om u te helpen bij het schrijven van e-mails, school essays, of nieuwsartikelen?
Daarom hebben we zowel theoretische basis gelegd als proof-of-concept tools voor verschillende Zuid-Afrikaanse talen. Dit omvat spellingcontrole voor isiZulu en isiXhosa en het genereren van tekst in voornamelijk deze talen op basis van gestructureerde invoer.
Regels van de taal gebruiken om tools te ontwikkelen
De ontwikkeling van tools voor de Nguni-talengroep – en isiZulu en isiXhosa in het bijzonder – was niet alleen een kwestie van kopiëren en plakken vanuit het Engels. Ik moest nieuwe algoritmen ontwikkelen die de heel andere grammatica aankunnen. Ik heb ook samengewerkt met taalkundigen om de details van elke taal te achterhalen.
Bijvoorbeeld, zelfs het automatisch genereren van het meervoud in isiZulu van een zelfstandig naamwoord in het enkelvoud vereiste een nieuwe benadering die syntaxis - hoe het wordt geschreven - combineerde met de semantiek (de betekenis) van de zelfstandige naamwoorden door gebruik te maken van het kenmerkende klassensysteem van zelfstandige naamwoorden. In Engels, alleen op syntaxis gebaseerde regels kunnen het werk doen.
Regelgebaseerde benaderingen hebben ook de voorkeur voor morfologische analysers, die elk woord in zijn samenstellende delen splitsen, en voor het genereren van natuurlijke taal. Het genereren van natuurlijke taal omvat het nemen van gestructureerde gegevens, informatie of kennis, zoals de getallen in de kolommen in een spreadsheet, en er leesbare tekst van te maken.
Een eenvoudige manier om dat te realiseren is om sjablonen te gebruiken waarin de software de waarden invoegt die door de gegevens of de logische theorie worden gegeven. Dit is niet mogelijk voor isiZulu, omdat de zinscomponenten contextafhankelijk zijn.
Een grammatica-engine is nodig om zelfs de meest elementaire zinnen correct te genereren. We hebben de kernaspecten van de workflow in de engine uitgewerkt. Dit wordt uitgebreid met meer details van de werkwoorden.
Veel tekst gebruiken om tools te ontwikkelen
De op regels gebaseerde benadering is arbeidsintensief. Dit, in combinatie met wereldwijde hype rond "Big Data", heeft datagestuurde benaderingen op de voorgrond gebracht.
De hoop is dat tools van betere kwaliteit nu met minder inspanning kunnen worden ontwikkeld en dat het gemakkelijker zal zijn om die tools opnieuw te gebruiken voor verwante talen. Dit kan werken, mits men veel tekst van goede kwaliteit heeft, corpus genoemd.
Dergelijke corpora worden ontwikkeld, en het onlangs opgerichte South African Centre for Digital Language Resources (SADiLaR) heeft tot doel computerbronnen te bundelen. We onderzochten de effecten van een corpus op de kwaliteit van een isiZulu spellingcontrole, waaruit bleek dat het leren van het statistiekgestuurde taalmodel op oude teksten zoals de bijbel niet goed overgaat op moderne teksten zoals nieuwsberichten uit de Isolezwe-krant, noch omgekeerd.
De spellingcontrole heeft een nauwkeurigheid van ongeveer 90% bij het detecteren van fouten in één woord en het lijkt bij te dragen aan de intellectualisering van isiZulu.
De algoritmen gebruiken trigrammen en kansen op hun voorkomen in het corpus om de kans te berekenen dat een woord correct is gespeld, in plaats van een op woordenboeken gebaseerde benadering die onpraktisch is voor agglutinerende talen. De algoritmen werden hergebruikt voor isiXhosa door het simpelweg een klein isiXhosa-corpus te geven:het bereikte al een nauwkeurigheid van ongeveer 80%, zelfs zonder optimalisaties.
Gegevensgestuurde benaderingen worden ook nagestreefd in tools voor het online vinden van informatie, d.w.z., om zowel zoekmachines als een 'Google voor isiZulu' te ontwikkelen. Algoritmen voor datagestuurde machinevertaling, anderzijds, kan gemakkelijk worden misleid door out-of-domain trainingsgegevens waaruit het de patronen moet leren.
Relevantie voor Zuid-Afrika
Dit soort natuurlijke taalgeneratie zou ongelooflijk nuttig kunnen zijn in Zuid-Afrika. Het land heeft 11 officiële talen, met Engels als voertaal. Dat heeft ertoe geleid dat de andere 10 buitenspel zijn gezet, en in het bijzonder degenen die al onvoldoende middelen hadden.
Deze trend druist in tegen de rechten van de burger en de plichten van de staat zoals vastgelegd in de Grondwet. Deze verplichtingen gaan verder dan alleen het bevorderen van taal. Nemen, bijvoorbeeld, het recht op toegang tot het openbare gezondheidsstelsel. Eén studie toonde aan dat slechts 6% van de consultaties tussen patiënt en arts in de thuistaal van de patiënt werd gehouden. De overige 94% kreeg in wezen niet de kwaliteitszorg die ze verdienden vanwege taalbarrières.
Het soort onderzoek waaraan ik met mijn team werk, kan daarbij helpen. Het zou kunnen bijdragen aan, onder andere, het realiseren van technologieën zoals het automatisch genereren van ontslagnota's van patiënten in de eigen taal, op tekst gebaseerde weersvoorspellingen, en online taalleeroefeningen.
Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees het originele artikel.
Wetenschap © https://nl.scienceaq.com