Wetenschap
Krediet:Patrick Dockens/Creative Commons
Onderzoekers van de North Carolina State University hebben een techniek ontwikkeld die de trainingstijd voor deep learning-netwerken met meer dan 60 procent verkort zonder in te boeten aan nauwkeurigheid. het versnellen van de ontwikkeling van nieuwe toepassingen voor kunstmatige intelligentie (AI).
"Deep learning-netwerken vormen de kern van AI-toepassingen die in alles worden gebruikt, van zelfrijdende auto's tot computervisietechnologieën, " zegt Xipeng Shen, een professor in de computerwetenschappen bij NC State en co-auteur van een paper over het werk.
"Een van de grootste uitdagingen voor de ontwikkeling van nieuwe AI-tools is de hoeveelheid tijd en rekenkracht die nodig is om deep learning-netwerken te trainen om de gegevenspatronen die relevant zijn voor hun toepassingen te identificeren en erop te reageren. We hebben een manier om dat proces te versnellen, die we Adaptive Deep Reuse noemen. We hebben aangetoond dat het de trainingstijd tot 69 procent kan verkorten zonder verlies van nauwkeurigheid."
Het trainen van een deep learning-netwerk omvat het opsplitsen van een gegevensmonster in brokken opeenvolgende gegevenspunten. Denk aan een netwerk dat is ontworpen om te bepalen of er een voetganger in een bepaald beeld is. Het proces begint met het verdelen van een digitaal beeld in blokken pixels die aan elkaar grenzen. Elk stuk gegevens wordt door een reeks rekenfilters geleid. De resultaten worden vervolgens door een tweede set filters geleid. Dit gaat iteratief door totdat alle gegevens door alle filters zijn gelopen, waardoor het netwerk een conclusie kan trekken over de gegevenssteekproef.
Wanneer dit proces voor elk datamonster in een dataset is uitgevoerd, dat heet een tijdperk. Om een deep learning netwerk te verfijnen, het netwerk zal waarschijnlijk honderden tijdperken door dezelfde dataset lopen. En veel datasets bestaan uit tienduizenden tot miljoenen datasamples. Veel herhalingen van veel filters die op veel gegevens worden toegepast, betekent dat het trainen van een deep learning-netwerk veel rekenkracht kost.
Het doorbraakmoment voor het onderzoeksteam van Shen kwam toen het zich realiseerde dat veel van de databrokjes in een dataset op elkaar lijken. Bijvoorbeeld, een stukje blauwe lucht in een afbeelding kan lijken op een stukje blauwe lucht elders in dezelfde afbeelding of op een stukje lucht in een andere afbeelding in dezelfde gegevensset.
Door deze vergelijkbare gegevensblokken te herkennen, een deep learning-netwerk kan filters toepassen op één stuk gegevens en de resultaten toepassen op alle vergelijkbare stukken gegevens in dezelfde set, scheelt veel rekenkracht.
"We hebben niet alleen kunnen aantonen dat deze overeenkomsten bestaan, maar dat we deze overeenkomsten kunnen vinden voor tussentijdse resultaten bij elke stap van het proces, " zegt Lin Ning, een doctoraat student bij NC State en hoofdauteur van het papier. "En we waren in staat om deze efficiëntie te maximaliseren door een methode toe te passen die lokaliteitsgevoelige hashing wordt genoemd."
Maar dit roept twee aanvullende vragen op. Hoe groot moet elk stuk gegevens zijn? En aan welke drempel moeten gegevensbrokken voldoen om als "vergelijkbaar" te worden beschouwd?
De onderzoekers ontdekten dat de meest efficiënte aanpak was om te beginnen met het bekijken van relatief grote brokken gegevens met een relatief lage drempel voor het bepalen van gelijkenis. In volgende tijdperken, de gegevensbrokken worden kleiner en de overeenkomstdrempel strenger, het verbeteren van de nauwkeurigheid van het deep learning-netwerk. De onderzoekers ontwierpen een adaptief algoritme dat deze incrementele veranderingen automatisch implementeert tijdens het trainingsproces.
Om hun nieuwe techniek te evalueren, de onderzoekers hebben het getest met behulp van drie deep learning-netwerken en datasets die veel worden gebruikt als testbed door deep learning-onderzoekers:CifarNet met Cifar10; AlexNet met ImageNet; en VGG-19 met ImageNet.
Adaptive Deep Reuse verkort de trainingstijd voor AlexNet met 69 procent; voor VGG-19 met 68 procent; en voor CifarNet met 63 procent – allemaal zonder verlies van nauwkeurigheid.
"Dit toont aan dat de techniek de trainingstijden drastisch verkort, " zegt Hui Guan, een doctoraat student bij NC State en co-auteur van het papier. "Het geeft ook aan dat hoe groter het netwerk, hoe meer Adaptive Deep Reuse de trainingstijd kan verkorten - aangezien AlexNet en VGG-19 beide aanzienlijk groter zijn dan CifarNet."
"We denken dat Adaptive Deep Reuse een waardevol hulpmiddel is, en kijk ernaar uit om samen te werken met de industrie en onderzoekspartners om te laten zien hoe het kan worden gebruikt om AI te bevorderen, "zegt Sheen.
De krant, "Adaptief diep hergebruik:het versnellen van CNN-training on the fly, " zal worden gepresenteerd op de 35e IEEE International Conference on Data Engineering, wordt gehouden van 8-11 april in Macau SAR, China.
Wetenschap © https://nl.scienceaq.com