science >> Wetenschap >  >> Elektronica

Slimmer trainen van neurale netwerken

(L-R) MIT-assistent-professor Michael Carbin en promovendus Jonathan Frankle. Krediet:Jason Dorfman/MIT CSAIL

Tegenwoordig, bijna alle op kunstmatige intelligentie gebaseerde producten in ons leven zijn afhankelijk van 'diepe neurale netwerken' die automatisch leren om gelabelde gegevens te verwerken.

Voor de meeste organisaties en individuen Hoewel, diep leren is moeilijk om in te breken. Om goed te leren, neurale netwerken moeten normaal gesproken vrij groot zijn en enorme datasets nodig hebben. Dit trainingsproces vereist meestal meerdere dagen training en dure grafische verwerkingseenheden (GPU's) - en soms zelfs op maat ontworpen hardware.

Maar wat als ze eigenlijk niet zo groot hoeven te zijn, ten slotte?

In een nieuwe krant onderzoekers van MIT's Computer Science and Artificial Intelligence Lab (CSAIL) hebben aangetoond dat neurale netwerken subnetwerken bevatten die tot een tiende van de grootte kunnen zijn en toch kunnen worden getraind om even nauwkeurige voorspellingen te doen - en soms zelfs sneller kunnen leren dan de originelen.

De aanpak van het team is nu niet bijzonder efficiënt - ze moeten het volledige netwerk verschillende keren trainen en "snoeien" voordat ze het succesvolle subnetwerk vinden. Echter, MIT-assistent-professor Michael Carbin zegt dat de bevindingen van zijn team suggereren dat, als we precies kunnen bepalen welk deel van het oorspronkelijke netwerk relevant is voor de uiteindelijke voorspelling, wetenschappers kunnen dit dure proces op een dag misschien helemaal overslaan. Een dergelijke onthulling heeft het potentieel om uren werk te besparen en het gemakkelijker te maken om zinvolle modellen te maken door individuele programmeurs, en niet alleen grote technologiebedrijven.

"Als het aanvankelijke netwerk niet zo groot hoefde te zijn, waarom kun je er in het begin niet gewoon een maken die de juiste maat heeft?", zegt promovendus Jonathan Frankle, die zijn nieuwe paper, co-auteur met Carbin, presenteerde op de International Conference on Learning Representations (ICLR) in New Orleans. Het project werd uitgeroepen tot een van de twee beste papers van ICLR, van ongeveer 1, 600 inzendingen.

Het team vergelijkt traditionele deep learning-methoden met een loterij. Het trainen van grote neurale netwerken is zoiets als proberen te garanderen dat je de loterij wint door blindelings elk mogelijk lot te kopen. Maar wat als we de winnende nummers helemaal aan het begin zouden kunnen selecteren?

"Met een traditioneel neuraal netwerk initialiseer je willekeurig deze grote structuur, en na het te hebben getraind op een enorme hoeveelheid gegevens, werkt het op magische wijze, " zegt Carbin. "Deze grote structuur is als het kopen van een grote zak kaartjes, ook al is er maar een klein aantal tickets waar je echt rijk van wordt. De resterende wetenschap is om erachter te komen hoe de winnende tickets kunnen worden geïdentificeerd zonder eerst de winnende nummers te zien."

Het werk van het team kan ook gevolgen hebben voor het zogenaamde "transferleren, " waar netwerken die zijn getraind voor een taak als beeldherkenning worden gebouwd om vervolgens te helpen met een heel andere taak.

Traditioneel transferleren omvat het trainen van een netwerk en het toevoegen van een extra laag die is getraind voor een andere taak. Vaak, een netwerk dat voor het ene doel is opgeleid, kan vervolgens een soort algemene kennis extraheren die later voor een ander doel kan worden gebruikt.

Voor zoveel hype als neurale netwerken hebben gekregen, er wordt vaak niet veel gezegd over hoe moeilijk het is om ze te trainen. Omdat ze onbetaalbaar duur kunnen zijn om te trainen, datawetenschappers moeten veel concessies doen, een reeks afwegingen maken met betrekking tot de grootte van het model, de hoeveelheid tijd die nodig is om te trainen, en zijn laatste optreden.

Om hun zogenaamde "loterijkaarthypothese" te testen en het bestaan ​​van deze kleinere subnetwerken aan te tonen, het team had een manier nodig om ze te vinden. Ze begonnen met een gemeenschappelijke aanpak voor het elimineren van onnodige verbindingen van getrainde netwerken om ze te laten passen op apparaten met een laag stroomverbruik zoals smartphones:ze "snoeiden" verbindingen met de laagste "gewichten" (hoeveel het netwerk prioriteit geeft aan die verbinding).

Hun belangrijkste innovatie was het idee dat verbindingen die werden gesnoeid nadat het netwerk was getraind, misschien helemaal niet nodig waren. Om deze hypothese te testen, ze probeerden exact hetzelfde netwerk opnieuw te trainen, maar zonder de gesnoeide verbindingen. belangrijk, ze "resetten" elke verbinding naar het gewicht dat aan het begin van de training was toegewezen. Deze initiële gewichten zijn van vitaal belang om een ​​lot te helpen winnen:zonder hen, de gesnoeide netwerken zouden het niet leren. Door steeds meer verbindingen te snoeien, ze bepaalden hoeveel er kon worden verwijderd zonder het leervermogen van het netwerk te schaden.

Om deze hypothese te valideren, ze herhaalden dit proces tienduizenden keren op veel verschillende netwerken in een breed scala van omstandigheden.

"Het was verrassend om te zien dat het resetten van een goed presterend netwerk vaak zou resulteren in iets beters, ", zegt Carbin. "Dit suggereert dat wat we de eerste keer ook deden, niet bepaald optimaal was, and that there's room for improving how these models learn to improve themselves."

As a next step, the team plans to explore why certain subnetworks are particularly adept at learning, and ways to efficiently find these subnetworks.

"Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.