science >> Wetenschap >  >> Elektronica

Maak diepgaand leren sneller en eenvoudiger

Onderzoekers gebruiken automatische differentiatie en andere technieken om deep learning sneller en eenvoudiger te maken. Krediet:Purdue University

Kunstmatige intelligentiesystemen op basis van deep learning veranderen de elektronische apparaten die ons omringen.

De resultaten van dit diepgaande leren is iets dat elke keer wordt gezien als een computer onze spraak verstaat, we zoeken naar een foto van een vriend of we zien een passend geplaatste advertentie. Maar het deep learning zelf vereist enorme clusters van computers en runs van een week.

"Methoden ontwikkeld door ons internationale team zullen deze last verminderen, " zei Jeffrey Mark Siskind, hoogleraar elektrische en computertechniek aan Purdue's College of Engineering. "Onze methoden stellen individuen met meer bescheiden computers in staat om het soort diepgaand leren te doen waarvoor voorheen clusters van miljoenen dollars nodig waren, en laat programmeurs toe om programma's te schrijven in uren die vroeger maanden nodig hadden."

Deep learning gebruikt een bepaald soort calculus als kern:een slimme techniek, automatische differentiatie (AD) genoemd in de omgekeerde accumulatiemodus, om efficiënt te berekenen hoe aanpassingen aan een groot aantal bedieningselementen een resultaat zullen beïnvloeden.

"Er zijn geavanceerde softwaresystemen en gigantische computerclusters gebouwd om deze specifieke berekening uit te voeren, " zei Barak Parelmoer, hoogleraar computerwetenschappen aan de Maynooth University in Ierland, en de andere opdrachtgever van deze samenwerking. "Deze systemen liggen ten grondslag aan een groot deel van de AI in de samenleving:spraakherkenning, internet zoekopdracht, beeld begrip, gezichtsherkenning, machinevertaling en het plaatsen van advertenties."

Een belangrijke beperking van deze deep learning-systemen is dat ze deze specifieke AD-berekening zeer rigide ondersteunen.

"Deze systemen werken alleen op zeer beperkte soorten computerprogramma's:programma's die getallen verbruiken bij hun invoer, voer er dezelfde numerieke bewerkingen op uit, ongeacht hun waarden, en voer de resulterende getallen uit, ' zei Siskind.

Een andere beperking is volgens de onderzoekers dat de AD-operatie veel computergeheugen vereist. Deze beperkingen beperken de omvang en verfijning van de deep learning-systemen die kunnen worden gebouwd. Bijvoorbeeld, ze maken het moeilijk om een ​​diepgaand leersysteem te bouwen dat een variabele hoeveelheid berekeningen uitvoert, afhankelijk van de moeilijkheidsgraad van de specifieke invoer, een die probeert te anticiperen op de acties van een intelligente adaptieve gebruiker, of een die als output een computerprogramma produceert.

Siskind zei dat de samenwerking is gericht op het opheffen van deze beperkingen.

Een reeks innovaties maakt niet alleen reverse-mode AD mogelijk, maar andere vormen van AD, efficiënt te gebruiken; om deze operaties in cascade te laten verlopen, en niet alleen toegepast op rigide berekeningen, maar ook op willekeurige computerprogramma's; voor het verhogen van de efficiëntie van deze processen; en voor het aanzienlijk verminderen van de hoeveelheid vereist computergeheugen.

"Gewoonlijk gaat dit soort winst ten koste van het vergroten van de last voor computerprogrammeurs, ' zei Siskind. 'Hier, de ontwikkelde technieken maken deze verhoogde flexibiliteit en efficiëntie mogelijk, terwijl het werk dat computerprogrammeurs die AI-systemen bouwen, aanzienlijk wordt verminderd."

Bijvoorbeeld, een techniek genaamd "checkpoint reverse AD" voor het verminderen van de geheugenvereisten was eerder bekend, maar kon alleen worden toegepast in beperkte instellingen, was erg omslachtig, en vergde veel extra werk van de computerprogrammeurs die de deep learning-systemen bouwden.

Eén methode die door het team is ontwikkeld, maakt het mogelijk om de geheugenvereisten voor elk computerprogramma te verminderen, en vereist geen extra werk van de computerprogrammeurs die de AI-systemen bouwen.

"De enorme reductie in RAM die nodig is voor het trainen van AI-systemen zou het mogelijk moeten maken om meer geavanceerde systemen te bouwen, en moet machine learning mogelijk maken op kleinere machines – smartphones in plaats van enorme computerclusters, ' zei Siskind.

Als geheel, deze technologie heeft het potentieel om het veel gemakkelijker te maken om geavanceerde, op deep learning gebaseerde AI-systemen te bouwen.

"Deze theoretische vooruitgang wordt ingebouwd in een zeer efficiënte implementatie met volledige functionaliteit die zowel op CPU's als GPU's draait en een breed scala aan standaardcomponenten ondersteunt die worden gebruikt om diepgaande leermodellen te bouwen. ' zei Siskind.