Wetenschap
(L-R) MIT-assistent-professor Michael Carbin en promovendus Jonathan Frankle. Krediet:Jason Dorfman/MIT CSAIL
Tegenwoordig, bijna alle op kunstmatige intelligentie gebaseerde producten in ons leven zijn afhankelijk van 'diepe neurale netwerken' die automatisch leren om gelabelde gegevens te verwerken.
Voor de meeste organisaties en individuen Hoewel, diep leren is moeilijk om in te breken. Om goed te leren, neurale netwerken moeten normaal gesproken vrij groot zijn en enorme datasets nodig hebben. Dit trainingsproces vereist meestal meerdere dagen training en dure grafische verwerkingseenheden (GPU's) - en soms zelfs op maat ontworpen hardware.
Maar wat als ze eigenlijk niet zo groot hoeven te zijn, ten slotte?
In een nieuwe krant onderzoekers van MIT's Computer Science and Artificial Intelligence Lab (CSAIL) hebben aangetoond dat neurale netwerken subnetwerken bevatten die tot een tiende van de grootte kunnen zijn en toch kunnen worden getraind om even nauwkeurige voorspellingen te doen - en soms zelfs sneller kunnen leren dan de originelen.
De aanpak van het team is nu niet bijzonder efficiënt - ze moeten het volledige netwerk verschillende keren trainen en "snoeien" voordat ze het succesvolle subnetwerk vinden. Echter, MIT-assistent-professor Michael Carbin zegt dat de bevindingen van zijn team suggereren dat, als we precies kunnen bepalen welk deel van het oorspronkelijke netwerk relevant is voor de uiteindelijke voorspelling, wetenschappers kunnen dit dure proces op een dag misschien helemaal overslaan. Een dergelijke onthulling heeft het potentieel om uren werk te besparen en het gemakkelijker te maken om zinvolle modellen te maken door individuele programmeurs, en niet alleen grote technologiebedrijven.
"Als het aanvankelijke netwerk niet zo groot hoefde te zijn, waarom kun je er in het begin niet gewoon een maken die de juiste maat heeft?", zegt promovendus Jonathan Frankle, die zijn nieuwe paper, co-auteur met Carbin, presenteerde op de International Conference on Learning Representations (ICLR) in New Orleans. Het project werd uitgeroepen tot een van de twee beste papers van ICLR, van ongeveer 1, 600 inzendingen.
Het team vergelijkt traditionele deep learning-methoden met een loterij. Het trainen van grote neurale netwerken is zoiets als proberen te garanderen dat je de loterij wint door blindelings elk mogelijk lot te kopen. Maar wat als we de winnende nummers helemaal aan het begin zouden kunnen selecteren?
"Met een traditioneel neuraal netwerk initialiseer je willekeurig deze grote structuur, en na het te hebben getraind op een enorme hoeveelheid gegevens, werkt het op magische wijze, " zegt Carbin. "Deze grote structuur is als het kopen van een grote zak kaartjes, ook al is er maar een klein aantal tickets waar je echt rijk van wordt. De resterende wetenschap is om erachter te komen hoe de winnende tickets kunnen worden geïdentificeerd zonder eerst de winnende nummers te zien."
Het werk van het team kan ook gevolgen hebben voor het zogenaamde "transferleren, " waar netwerken die zijn getraind voor een taak als beeldherkenning worden gebouwd om vervolgens te helpen met een heel andere taak.
Traditioneel transferleren omvat het trainen van een netwerk en het toevoegen van een extra laag die is getraind voor een andere taak. Vaak, een netwerk dat voor het ene doel is opgeleid, kan vervolgens een soort algemene kennis extraheren die later voor een ander doel kan worden gebruikt.
Voor zoveel hype als neurale netwerken hebben gekregen, er wordt vaak niet veel gezegd over hoe moeilijk het is om ze te trainen. Omdat ze onbetaalbaar duur kunnen zijn om te trainen, datawetenschappers moeten veel concessies doen, een reeks afwegingen maken met betrekking tot de grootte van het model, de hoeveelheid tijd die nodig is om te trainen, en zijn laatste optreden.
Om hun zogenaamde "loterijkaarthypothese" te testen en het bestaan van deze kleinere subnetwerken aan te tonen, het team had een manier nodig om ze te vinden. Ze begonnen met een gemeenschappelijke aanpak voor het elimineren van onnodige verbindingen van getrainde netwerken om ze te laten passen op apparaten met een laag stroomverbruik zoals smartphones:ze "snoeiden" verbindingen met de laagste "gewichten" (hoeveel het netwerk prioriteit geeft aan die verbinding).
Hun belangrijkste innovatie was het idee dat verbindingen die werden gesnoeid nadat het netwerk was getraind, misschien helemaal niet nodig waren. Om deze hypothese te testen, ze probeerden exact hetzelfde netwerk opnieuw te trainen, maar zonder de gesnoeide verbindingen. belangrijk, ze "resetten" elke verbinding naar het gewicht dat aan het begin van de training was toegewezen. Deze initiële gewichten zijn van vitaal belang om een lot te helpen winnen:zonder hen, de gesnoeide netwerken zouden het niet leren. Door steeds meer verbindingen te snoeien, ze bepaalden hoeveel er kon worden verwijderd zonder het leervermogen van het netwerk te schaden.
Om deze hypothese te valideren, ze herhaalden dit proces tienduizenden keren op veel verschillende netwerken in een breed scala van omstandigheden.
"Het was verrassend om te zien dat het resetten van een goed presterend netwerk vaak zou resulteren in iets beters, ", zegt Carbin. "Dit suggereert dat wat we de eerste keer ook deden, niet bepaald optimaal was, and that there's room for improving how these models learn to improve themselves."
As a next step, the team plans to explore why certain subnetworks are particularly adept at learning, and ways to efficiently find these subnetworks.
"Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wat als vliegtuigen hun eigen schade konden herstellen?
Dichtheid versus concentratie
Moleculaire engineering metaalcoördinatie-interacties voor sterke, moeilijk, snel herstellende hydrogels
Het visualiseren van de warmtestroom in bamboe kan helpen bij het ontwerpen van meer energie-efficiënte en brandveilige gebouwen
Een nieuw ligand verlengt de halfwaardetijd van peptiden van minuten tot dagen
Modern vulkanisme gekoppeld aan gebeurtenissen die kort na de geboorte van de aarde plaatsvinden
NASA volgt Tropical Storm Nuris-pad
Wat is de levenscyclus van een kangoeroe?
Stappenbad-streams na natuurbrand
Vervuilingsniveaus in Britse steden dalen naarmate het coronavirus het dagelijks leven beïnvloedt, nieuwe gegevens onthullen
Nieuwe lichtgewicht, draagbaar robotpak om de loop- en loopprestaties te verbeteren
Spanningsregeling berekenen
Hoe waarschijnlijkheid te berekenen voor Weather
De beste tijd van het jaar om alle sterrenbeelden te zien
Voorbeelden van zuurbuffers
Waarom gewone mensen inspraak moeten hebben in waterbeheer
Hoe de straal van een ellips te vinden
Foto-emissies van kwantumdots beoordelen
Wetenschap © https://nl.scienceaq.com