Wetenschap
Voorbeeld van een leermiddel in een computerspel:het personage wordt bestuurd door een menselijke speler. De ogen zijn de agenten. De speler wordt verondersteld de agenten zo te begeleiden dat ze een taak uitvoeren, bijvoorbeeld zonder eerst tegen een obstakel aan te lopen. Training is gebaseerd op een machine learning-proces; alles wat de speler doet, is een schets van ruwe vereisten. Krediet:RUB, Instituut voor Neuro-informatica
De processen die tegenwoordig aan kunstmatige intelligentie ten grondslag liggen, zijn eigenlijk vrij dom. Onderzoekers uit Bochum proberen ze slimmer te maken.
Drastische verandering, revolutie, megatrend, misschien zelfs een risico:kunstmatige intelligentie is doorgedrongen tot alle industriële segmenten en houdt de media bezig. Onderzoekers van het RUB Institute for Neural Computation bestuderen het al 25 jaar. Hun leidende principe is:om machines echt intelligent te maken, nieuwe benaderingen moeten machine learning eerst efficiënter en flexibeler maken.
"Er zijn twee soorten machine learning die tegenwoordig succesvol zijn:diepe neurale netwerken, ook wel bekend als diep leren, evenals versterkend leren, " legt professor Laurenz Wiskott uit, Leerstoel voor Theorie van Neuronale Systemen.
Neurale netwerken zijn in staat om complexe beslissingen te nemen. Ze worden vaak gebruikt in toepassingen voor beeldherkenning. "Ze kunnen, bijvoorbeeld, aan de hand van foto's zien of het onderwerp een man of een vrouw is, ', zegt Wiskott.
De architectuur van dergelijke netwerken is geïnspireerd op netwerken van zenuwcellen, of neuronen, in onze hersenen. Neuronen ontvangen signalen via verschillende ingangskanalen en beslissen vervolgens of ze het signaal in de vorm van een elektrische puls doorgeven aan de volgende neuronen of niet.
Neurale netwerken ontvangen eveneens verschillende ingangssignalen, bijvoorbeeld pixels. In een eerste stap, veel kunstmatige neuronen berekenen een uitgangssignaal uit verschillende ingangssignalen door simpelweg de ingangen te vermenigvuldigen met verschillende maar constante gewichten en ze vervolgens op te tellen. Elk van deze rekenkundige bewerkingen resulteert in een waarde die - om bij het voorbeeld van man/vrouw te blijven - een beetje bijdraagt aan de beslissing voor vrouw of man. "Het resultaat is enigszins gewijzigd, echter, door negatieve resultaten op nul te zetten. Dit, te, wordt gekopieerd van zenuwcellen en is essentieel voor de prestaties van neurale netwerken, " legt Laurenz Wiskott uit.
Hetzelfde gebeurt weer in de volgende laag, totdat het netwerk in de laatste fase tot een besluit komt. Hoe meer fasen er in het proces zijn, hoe krachtiger het is - neurale netwerken met meer dan 100 fasen zijn niet ongewoon. Neurale netwerken lossen discriminatietaken vaak beter op dan mensen.
Het leereffect van dergelijke netwerken is gebaseerd op de keuze van de juiste wegingsfactoren, die in eerste instantie willekeurig worden gekozen. "Om zo'n netwerk te trainen, de ingangssignalen en wat de uiteindelijke beslissing moet zijn, worden vanaf het begin gespecificeerd, ", legt Laurenz Wiskott uit. het netwerk kan de wegingsfactoren geleidelijk aanpassen om uiteindelijk met de grootste waarschijnlijkheid de juiste beslissing te nemen.
Versterkend leren, anderzijds, is geïnspireerd door de psychologie. Hier, elke beslissing van het algoritme – experts noemen het de agent – wordt beloond of gestraft. "Stel je een raster voor met de agent in het midden, " illustreert Laurenz Wiskott. "Het doel is om via de kortst mogelijke route het vak linksboven te bereiken - maar dat weet hij niet." Het enige dat de agent wil, is zoveel mogelijk beloningen krijgen, anders is het geen idee. Aanvankelijk, het zal willekeurig over het bord bewegen, en elke stap die het doel niet bereikt, wordt bestraft. Alleen de stap naar het doel levert een beloning op.
Welke route moet de robot nemen? Deze beslissing is gebaseerd op talloze rekenkundige bewerkingen. Krediet:Roberto Schirdewahn
Om te leren, de agent wijst aan elk veld een waarde toe die aangeeft hoeveel stappen er nog over zijn van die positie naar zijn doel. aanvankelijk, deze waarden zijn willekeurig. Hoe meer ervaring de agent opdoet aan zijn bord, hoe beter het deze waarden kan aanpassen aan de reële omstandigheden. Na talloze runs, het is in staat om de snelste weg naar zijn doel te vinden en, bijgevolg, naar de beloning.
"Het probleem met deze machine learning-processen is dat ze behoorlijk dom zijn, ", zegt Laurenz Wiskott. "De onderliggende technieken dateren uit de jaren tachtig. De enige reden voor hun huidige succes is dat we tegenwoordig meer rekencapaciteit en meer data tot onze beschikking hebben." het is mogelijk om de vrijwel inefficiënte leerprocessen ontelbare keren snel te laten lopen en neurale netwerken te voeden met een overvloed aan afbeeldingen en beeldbeschrijvingen om ze te trainen.
"Wat we willen weten is:hoe kunnen we al die lange, onzinnige opleiding? En vooral:hoe kunnen we machine learning flexibeler maken?”, zoals Wiskott het kort en bondig verwoordt. Kunstmatige intelligentie is misschien wel superieur aan de mens in precies die ene taak waarvoor het is opgeleid, maar het kan zijn kennis niet veralgemenen of overdragen naar verwante taken.
Daarom richten de onderzoekers van het Institute for Neural Computation zich op nieuwe strategieën die machines helpen om autonoom structuren te ontdekken. "Hiervoor, we hanteren het principe van onbewaakt leren, ", zegt Laurenz Wiskott. Terwijl diepe neurale netwerken en versterkend leren gebaseerd zijn op het presenteren van het gewenste resultaat of het belonen of straffen van elke stap, de onderzoekers laten leeralgoritmen grotendeels alleen met hun inbreng.
"Een taak zou kunnen zijn, bijvoorbeeld, clusters vormen, " legt Wiskott uit. Voor dit doel, de computer krijgt de opdracht om vergelijkbare gegevens te groeperen. Met betrekking tot punten in een driedimensionale ruimte, dit zou betekenen dat punten worden gegroepeerd waarvan de coördinaten dicht bij elkaar liggen. Als de afstand tussen de coördinaten groter is, ze zouden worden toegewezen aan verschillende groepen.
"Om terug te keren naar het voorbeeld van foto's van mensen, je zou na de groepering naar het resultaat kunnen kijken en waarschijnlijk ontdekken dat de computer een groep heeft samengesteld met afbeeldingen van mannen en een groep met afbeeldingen van vrouwen, ", legt Laurenz Wiskott uit. "Een groot voordeel is dat in het begin alleen foto's, in plaats van een afbeeldingsbijschrift dat de oplossing van het raadsel voor trainingsdoeleinden bevat, als het ware."
Het traagheidsprincipe
Bovendien, deze methode biedt meer flexibiliteit, omdat een dergelijke clustervorming niet alleen van toepassing is op afbeeldingen van mensen, maar ook voor die van auto's, planten, huizen of andere voorwerpen.
Een andere benadering die Wiskott nastreeft is het traagheidsprincipe. Hier, het zijn geen foto's die het ingangssignaal vormen, maar bewegende beelden:als alle functies uit een video worden gehaald die heel langzaam veranderen, Er ontstaan structuren die helpen om een abstracte representatie van de omgeving op te bouwen. "Hier, te, het gaat erom invoergegevens voor te structureren, " merkt Laurenz Wiskott op. Uiteindelijk de onderzoekers combineren dergelijke benaderingen op een modulaire manier met de methoden van begeleid leren, om flexibelere toepassingen te creëren die toch zeer nauwkeurig zijn.
"Verhoogde flexibiliteit leidt natuurlijk tot prestatieverlies, " geeft de onderzoeker toe. Maar op de lange termijn flexibiliteit is onmisbaar als we robots willen ontwikkelen die nieuwe situaties aankunnen.”
Wetenschap © https://nl.scienceaq.com