Wetenschap
De nieuwe aanpak stelt kunstmatige intelligentie in staat om getransformeerde beelden veel sneller te leren herkennen. Krediet:Diogo Matias
Een team van Italiaanse wiskundigen, waaronder een neurowetenschapper van het Champalimaud Center for the Unknown (CCU), in Lissabon, Portugal, heeft aangetoond dat kunstmatige visiemachines complexe beelden sneller kunnen leren herkennen door gebruik te maken van een wiskundige theorie die 25 jaar geleden is ontwikkeld door een van de co-auteurs van deze nieuwe studie. Hun resultaten zijn gepubliceerd in het tijdschrift Natuur Machine Intelligentie .
In de afgelopen decennia, machine vision prestaties zijn enorm verbeterd. Kunstmatige systemen kunnen nu leren om vrijwel elk menselijk gezicht te herkennen of om elke individuele vis te identificeren die in een aquarium beweegt.
Dergelijke machines zijn in feite, elektronische modellen van netwerken van biologische neuronen, en hun doel is om de werking van de hersenen te simuleren, die uitblinkt in deze visuele taken zonder enige bewuste inspanning van onze kant.
Maar hoe leren deze kunstmatige neurale netwerken eigenlijk? In het geval van gezichtsherkenning, bijvoorbeeld, ze doen dat door ervaring op te doen over hoe menselijke gezichten eruit zien in de vorm van een serie portretten. Specifieker, na te zijn gedigitaliseerd in een matrix van pixelwaarden, elk beeld wordt "gekraakt" in het neurale netwerk, die vervolgens algemene, betekenisvolle kenmerken van de reeks voorbeeldgezichten (zoals de ogen, mond, neus, enzovoort).
Dit diepgaande leren stelt de machine in staat om een andere reeks waarden uit te spuwen, waardoor het op zijn beurt een gezicht kan identificeren dat het nog nooit eerder heeft gezien in een databank van gezichten (net als een vingerafdrukdatabase), en voorspel daarom met grote nauwkeurigheid van wie dat gezicht is.
Het verhaal van Slimme Hans
Maar voordat het neurale netwerk dit goed kan doen, het is meestal nodig om het te presenteren met duizenden gezichten (d.w.z. matrices van getallen). Bovendien, hoewel deze machines steeds succesvoller zijn in patroonherkenning, het feit is dat niemand echt weet wat er in hen omgaat als ze taken leren. Het zijn eigenlijk zwarte dozen.
Dit betekent dat het niet mogelijk is om te bepalen welke of hoeveel functies de machine daadwerkelijk uit de initiële gegevens haalt - en zelfs niet hoeveel van die functies echt zinvol zijn voor gezichtsherkenning.
"Om dit te illustreren, overweeg het paradigma van het wijze paard, " zegt eerste auteur van de studie Mattia Bergomi, die werkt in het Systems Neuroscience Lab op de CCU. Het verhaal, uit het begin van de 20e eeuw, betreft een paard in Duitsland, Slimme Hans genaamd, waarvan zijn meester beweerde dat hij had geleerd om te rekenen en het resultaat van optellingen aan te kondigen, aftrekkingen, enz. door een van zijn voorhoeven het juiste aantal keren op de grond te stampen. Veel mensen waren ervan overtuigd dat hij kon tellen; het paard werd zelfs gemeld door de New York Times . Maar dan, in 1907, een Duitse psycholoog toonde aan dat het paard, in feite, onbewuste signalen oppikken in de lichaamstaal van zijn meester die hem vertelden wanneer hij moest stoppen met tikken.
"Het is hetzelfde met machine learning; er is geen controle over hoe het werkt, of wat het heeft geleerd tijdens de opleiding, " legt Bergomi uit. De machine, geen a priori kennis van gezichten hebben, doet gewoon op de een of andere manier zijn werk - en het werkt.
Dit leidde ertoe dat de onderzoekers zich afvroegen of er een manier was om enige kennis van de echte wereld over gezichten of andere objecten in het neurale netwerk te injecteren voordat ze gingen trainen, zodat het een beperktere ruimte van mogelijke functies zou verkennen in plaats van ze allemaal te overwegen. inclusief degenen die onmogelijk zijn in de echte wereld. "We wilden de ruimte van aangeleerde functies beheersen, "zegt Bergomi. "Het is vergelijkbaar met het verschil tussen een middelmatige schaker en een expert:de eerste ziet alle mogelijke zetten, terwijl de laatste alleen de goede ziet, " hij voegt toe.
Een andere manier om het te zeggen, hij zegt, is door te zeggen dat "onze studie de volgende eenvoudige vraag behandelt:wanneer we een diep neuraal netwerk trainen om verkeersborden te onderscheiden, hoe kunnen we het netwerk vertellen dat zijn werk veel gemakkelijker zal zijn als het zich alleen maar hoeft te bekommeren om eenvoudige geometrische vormen zoals cirkels en driehoeken?"
De wetenschappers redeneerden dat deze aanpak de trainingstijd aanzienlijk zou verminderen - en belangrijker nog, geef ze een hint over wat de machine zou kunnen doen om de resultaten te verkrijgen. "Mensen het leerproces van leermachines laten aansturen, is van fundamenteel belang om te evolueren naar een meer begrijpelijke kunstmatige intelligentie en de torenhoge kosten in tijd en middelen te verminderen die de huidige neurale netwerken nodig hebben om te worden getraind, " hij zegt.
Wat zit er in een vorm?
Een abstracte wiskundige theorie genaamd topologische data-analyse (TDA) was de sleutel. De eerste stappen in de ontwikkeling van TDA werden in 1992 gezet door de Italiaanse wiskundige Patrizio Frosini, co-auteur van de nieuwe studie, momenteel aan de Universiteit van Bologna. "Topologie is een van de zuiverste vormen van wiskunde, ", zegt Bergomi. "En tot voor kort, men dacht dat topologie lange tijd niet van toepassing zou zijn op iets concreets, totdat TDA de laatste jaren bekend werd."
Topologie is een soort uitgebreide geometrie die, in plaats van het meten van lijnen en hoeken in strakke vormen (zoals driehoeken, vierkanten, kegels, enzovoort.), probeert zeer complexe objecten te classificeren op basis van hun vorm. Voor een topoloog bijvoorbeeld, een donut en een mok zijn hetzelfde object:de ene kan in de andere worden vervormd door uitrekken of samendrukken.
Nutsvoorzieningen, het ding is, huidige neurale netwerken zijn niet goed in topologie. Bijvoorbeeld, ze herkennen geen geroteerde objecten. Naar hen, hetzelfde object ziet er elke keer dat het wordt geroteerd er compleet anders uit. Dat is precies de reden waarom de enige oplossing is om deze netwerken elke configuratie afzonderlijk te laten 'onthouden' - bij duizenden. En het is precies wat de auteurs van plan waren te vermijden door TDA te gebruiken.
Beschouw TDA als een wiskundig hulpmiddel voor het vinden van een betekenisvolle interne structuur (topologische kenmerken), in elk complex object dat kan worden weergegeven als een enorme reeks getallen. Dit wordt bereikt door naar de gegevens te kijken door bepaalde goedgekozen "lenzen, " of filters. De gegevens zelf kunnen over gezichten gaan, financiële transacties of overlevingspercentages van kanker. TDA maakt het mogelijk om een neuraal netwerk te leren gezichten te herkennen zonder het te hoeven presenteren met elk van de verschillende oriëntaties die gezichten in de ruimte kunnen aannemen. De machine herkent nu alle gezichten als een gezicht, zelfs in verschillende gedraaide posities.
In hun studie hebben de wetenschappers testten de voordelen van het combineren van machine learning en TDA door een neuraal netwerk te leren handgeschreven cijfers te herkennen. De resultaten spreken voor zich.
Aangezien deze netwerken slechte topologen zijn en handschrift erg dubbelzinnig kan zijn, twee verschillende handgeschreven cijfers kunnen niet te onderscheiden zijn voor huidige machines - en omgekeerd, ze kunnen twee exemplaren van hetzelfde handgeschreven cijfer als verschillend identificeren. De taak vereist het presenteren van het netwerk, die niets weet over cijfers in de echte wereld, met duizenden afbeeldingen van elk van de 10 cijfers geschreven met allerlei hellingen, kalligrafieën, enzovoort.
Om kennis over cijfers te injecteren, het team bouwde een reeks a priori-functies die zij als zinvol beschouwden, met andere woorden, een set "lenzen" waardoor het netwerk de cijfers zou zien - en dwong de machine om uit deze lenzen te kiezen om naar de afbeeldingen te kijken. Het aantal afbeeldingen (d.w.z. de tijd) die nodig is voor het TDA-verbeterde neurale netwerk om vijven van zeven te leren onderscheiden, hoe slecht geschreven, met behoud van zijn voorspellende kracht, gedaald tot minder dan 50.
"Wat we wiskundig beschrijven in onze studie is hoe we bepaalde symmetrieën kunnen afdwingen, en dit biedt een strategie om machine learning-agents te bouwen die opvallende kenmerken kunnen leren van een paar voorbeelden door te profiteren van de kennis die als beperkingen wordt geïnjecteerd, ' zegt Bergomi.
Betekent dit dat de innerlijke werking van leermachines die de hersenen nabootsen in de toekomst transparanter zal worden, nieuwe inzichten mogelijk te maken over de innerlijke werking van de hersenen zelf? In elk geval, dit is een van Bergomi's doelen. "De begrijpelijkheid van kunstmatige intelligentie is noodzakelijk voor de interactie en integratie met biologische intelligentie, "zegt hij. Hij is momenteel aan het werk, in samenwerking met zijn collega Pietro Vertechi, over het ontwikkelen van een nieuw soort neurale netwerkarchitectuur waarmee mensen snel hoogwaardige kennis in deze netwerken kunnen injecteren om hun training te controleren en te versnellen.
Wetenschap © https://nl.scienceaq.com