Wetenschap
MIT-onderzoekers (van links naar rechts) Qianli Liao, Tomaso Poggio, en Andrzej Banburski staan met hun vergelijkingen. Krediet:Kris Brewer
Inleidende cursussen statistiek leren ons dat, bij het aanpassen van een model aan sommige gegevens, we zouden meer gegevens moeten hebben dan vrije parameters om het gevaar van overfitting te vermijden - het te nauw aansluiten van luidruchtige gegevens, en daardoor niet passen bij nieuwe gegevens. Het is verrassend, dan, dat het bij modern diep leren de praktijk is om orden van grootte meer parameters dan gegevens te hebben. Ondanks dit, diepe netwerken vertonen goede voorspellende prestaties, en in feite beter doen naarmate ze meer parameters hebben. Waarom zou dat zijn?
Het is al enige tijd bekend dat goede prestaties in machine learning voortkomen uit het beheersen van de complexiteit van netwerken, wat niet alleen een simpele functie is van het aantal vrije parameters. De complexiteit van een classificatie, zoals een neuraal netwerk, hangt af van het meten van de "grootte" van de ruimte van functies die dit netwerk vertegenwoordigt, met meerdere technische maatregelen die eerder zijn voorgesteld:Vapnik-Chervonenkis-dimensie, dekkende nummers, of Rademacher complexiteit, om er een paar te noemen. complexiteit, zoals gemeten door deze begrippen, kan tijdens het leerproces worden gecontroleerd door een beperking op te leggen aan de norm van de parameters - kortom, hoe "groot" ze kunnen worden. Het verrassende feit is dat een dergelijke expliciete beperking niet nodig lijkt te zijn bij het trainen van diepe netwerken. Valt deep learning buiten de klassieke leertheorie? Moeten we de fundamenten heroverwegen?
In een nieuwe Nature Communications-paper, "Complexiteitscontrole door gradiëntafdaling in diepe netwerken, " een team van het Centre for Brains, geesten, en machines onder leiding van directeur Tomaso Poggio, de Eugene McDermott Professor in het MIT Department of Brain and Cognitive Sciences, heeft enig licht geworpen op deze puzzel door de meest praktische en succesvolle toepassingen van modern deep learning aan te pakken:classificatieproblemen.
"Voor classificatieproblemen, we zien dat in feite de parameters van het model niet lijken te convergeren, maar in plaats daarvan onbeperkt in omvang groeien tijdens gradiëntafdaling. Echter, bij classificatieproblemen zijn alleen de genormaliseerde parameters van belang, d.w.z. de richting die ze bepalen, niet hun grootte, ", zegt co-auteur en MIT-promovendus Qianli Liao. "Het niet zo voor de hand liggende dat we hebben laten zien, is dat de veelgebruikte gradiëntafdaling op de niet-genormaliseerde parameters de gewenste complexiteitscontrole op de genormaliseerde parameters induceert."
"We weten al een tijdje dat in het geval van regressie voor ondiepe lineaire netwerken, zoals kernelmachines, dat iteraties van gradiëntafdaling een impliciete, verdwijnend regularisatie-effect, " zegt Poggio. "In feite, in dit eenvoudige geval weten we waarschijnlijk dat we de best gedragende maximale marge krijgen, minimumnorm oplossing. De vraag die we onszelf stelden, dan, was:Kan iets soortgelijks gebeuren voor diepe netwerken?"
De onderzoekers ontdekten van wel. Zoals co-auteur en MIT-postdoc Andrzej Banburski uitlegt:"Het begrijpen van convergentie in diepe netwerken laat zien dat er duidelijke aanwijzingen zijn voor het verbeteren van onze algoritmen. we hebben al hints gezien dat het beheersen van de snelheid waarmee deze niet-genormaliseerde parameters divergeren ons in staat stelt beter presterende oplossingen te vinden en deze sneller te vinden."
Wat betekent dit voor machine learning? Er zit geen magie achter diepe netwerken. Dezelfde theorie achter alle lineaire modellen is hier ook in het spel. Dit werk suggereert manieren om diepe netwerken te verbeteren, waardoor ze nauwkeuriger en sneller te trainen zijn.
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com