Wetenschap
Het op CNN gebaseerde systeem voor symboolscript en type-identificatie. Krediet:Khazri &Echi.
Onderzoekers van de Universiteit van Tunis hebben onlangs een nieuw systeem voorgesteld voor het schrijven van wiskundige formules en type-identificatie, die is gebaseerd op convolutionele neurale netwerken (CNN's). hun methode, gepresenteerd in een paper gepubliceerd door Springer, kan automatisch onderscheid maken tussen gedrukte/handgeschreven en Arabische/Latijnse formules.
In recente jaren, onderzoekers hebben geprobeerd systemen te ontwikkelen die de vormen kunnen identificeren waarin een document wordt gepresenteerd, zoals de gebruikte taal en of de tekst machinaal gedrukt of met de hand geschreven is, om voor elk document het juiste herkenningssysteem te selecteren. De meeste van deze benaderingen zijn gericht op het identificeren van verschillende vormen van tekst, terwijl er maar heel weinig zijn ontworpen om wiskundige formules te analyseren.
"In deze context, presenteren we een nieuwe benadering die het probleem van de identificatie van het script aanpakt, Arabisch of Latijn; en de soort, handgeschreven of machinaal bedrukt, van wiskundige formules, ' schreven de onderzoekers van de Universiteit van Tunis in hun paper. 'Dit werk maakt deel uit van ons onderzoek naar offline herkenning van Arabische wiskundige formules.'
In hun studie hebben de onderzoekers presenteerden een syntaxisgericht systeem dat is ontworpen om symbolen te herkennen en hun rangschikking te analyseren. Om symbolen te herkennen, hun aanpak maakt gebruik van statistische kenmerken en een Bayes-netwerkclassificatie.
Om de structuur van een formule te analyseren, hun systeem maakt gebruik van een top-down en bottom-up parsing-schema op basis van dominantie van de operator. Met andere woorden, hun systeem voert een lexicale, geometrische en syntactische analyse van een formule, waarmee het zijn schrift kan identificeren (Latijn versus Arabisch) en of het handgeschreven of machinaal is getypt.
"Formule-parsing bestaat uit het toepassen, van de dominante operator en zijn context, de juiste regel om de formules in subformules te verdelen, die op dezelfde manier recursief worden geanalyseerd, " legden de onderzoekers uit in hun paper.
Met behulp van een CNN, de door de onderzoekers bedachte aanpak extraheert en classificeert vervolgens samenhangende componenten van een formule. De onderzoekers trainden en evalueerden hun systeem met behulp van Latijnse schriftformules uit de InftyMDB-1- en CROHME-databases, evenals Arabische formules gescand uit wiskundeboeken of handgeschreven door vijf verschillende schrijvers.
"Het voorgestelde herkenningssysteem is getest op complexe wiskundige formules die impliciete vermenigvuldiging bevatten, subscripts en superscripts, met bevredigende resultaten, " schreven de onderzoekers. "Meer functies toevoegen, het testen van andere algoritmen voor het selecteren van functies en het kiezen van snellere classificaties zou de prestaties van het voorgestelde systeem moeten verbeteren."
Algemeen, de door de onderzoekers uitgevoerde evaluaties leverden veelbelovende resultaten op, waarbij hun systeem een identificatiepercentage van 94,6 procent behaalde. De parser die ze gebruikten om de structuur van formules te analyseren, lijkt ook erg robuust, omdat het een indrukwekkend herkenningspercentage van 97,63 procent behaalde. In hun toekomstige werk, de onderzoekers zijn van plan de prestaties van hun systeem te verbeteren door de filters en architectuur van CNN verder te ontwikkelen.
© 2019 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com