Wetenschap
Krediet:Ni et al.
De meeste deep learning-algoritmen presteren goed wanneer ze worden getraind op grote sets gelabelde gegevens, maar hun prestaties hebben de neiging om af te nemen bij het verwerken van nieuwe gegevens. Onderzoekers over de hele wereld hebben daarom geprobeerd technieken te ontwikkelen die het vermogen van deze algoritmen om goed te generaliseren over zowel nieuwe als eerder verwerkte gegevens zouden kunnen verbeteren, mogelijk maken van wat bekend staat als levenslang leren.
Onderzoekers van de Universiteit van Notre Dame en GlobalFoundries Fab1 hebben onlangs een nieuwe methode ontwikkeld om levenslang leren in kunstmatige neurale netwerken te vergemakkelijken, wat het gebruik van een ferro-elektrische ternaire inhoud-adresseerbare geheugencomponent met zich meebrengt. hun studie, te zien in Natuur Elektronica , was gericht op het repliceren van het vermogen van het menselijk brein om snel te leren van slechts een paar voorbeelden, aanpassen aan nieuwe taken op basis van ervaringen uit het verleden.
"Wanneer een getraind diep neuraal netwerk voorheen onzichtbare klassen tegenkomt, het slaagt er vaak niet in om vanuit zijn voorkennis te generaliseren en moet de netwerkparameters opnieuw leren om relevante informatie uit de gegeven klasse te extraheren, "Kai Ni, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Dit vereist dat grote hoeveelheden gelabelde data beschikbaar worden gesteld voor netwerktraining."
Een benadering die is ontworpen om de prestaties van diepe neurale netwerken op voorheen ongeziene gegevens te verbeteren, omvat de integratie van een aandachtsgeheugencomponent. Met dit onderdeel kunnen de algoritmen hun analyses baseren op eerder verworven kennis, aanpassen om nieuwe en toch enigszins vergelijkbare taken aan te pakken. Algoritmen met een aandachtsgeheugencomponent, bekend als geheugenvergrotende neurale netwerken (MANN's), zijn doorgaans in staat om kenmerken uit gegevens te extraheren, sla ze op in hun aandachtsgeheugen en haal ze op bij het voltooien van een nieuwe taak.
"Een belangrijke functie van de geheugenmodule is op inhoud gebaseerde adressering, waarbij de afstand tussen een zoekvector en alle opgeslagen vectoren wordt berekend om de dichtstbijzijnde overeenkomst te vinden. In een conventionele benadering, de opgeslagen geheugenvectoren (in DRAM) moeten worden overgebracht naar een rekeneenheid (CPU of GPU) om afstanden te vergelijken met een bepaalde query, " zei Ni. "Als zodanig, energiedissipatie en latentiebeperkingen kunnen aanzienlijke uitdagingen vormen voor het opschalen van MANN's. In dit werk, we stellen voor om ferro-elektrisch ternair inhoud adresseerbaar geheugen (TCAM) toe te passen als aandachtsgeheugen van het netwerk om dit knelpunt te overwinnen."
Door de afstand te berekenen tussen een vraagvector en elke opgeslagen geheugenvermelding direct in zichzelf, de door Ni en zijn collega's geïntroduceerde TCAM-component vermijdt dure gegevensoverdrachten. TCAM vertrouwt in wezen op het feit dat de ontlaadstroom door een matchlijn evenredig is met de Hamming-afstand (HD) tussen de vraag en de opgeslagen invoer.
Door deze ontlaadstroom te detecteren, kunnen de onderzoekers de HD direct in de geheugencomponent parallel berekenen. Met TCAM kunnen deep learning-modellen ook op inhoud gebaseerde geheugenupdates uitvoeren in plaats van willekeurige, op adressen gebaseerde gegevensupdates.
"Om de efficiënte interactie mogelijk te maken tussen het neurale netwerk (werken met een zwevend getal) en de TCAM-array (alleen de HD-afstand berekenen), we hebben een plaatsgevoelige hashing (LSH) -functie toegepast om een functievector met reële waarde, geëxtraheerd uit de NN, toe te wijzen aan een binaire handtekeningruimte, die een op Hamming-afstand gebaseerde naaste buur-zoekopdracht binnen de TCAM-array mogelijk maakt, ' legde Ni uit.
Ni en zijn collega's evalueerden hun ferro-elektrische TCAM-prototype in een reeks proeven waarbij een diep neuraal netwerk moest leren hoe nieuwe taken te voltooien op basis van een of meer voorbeelden. Wanneer geïmplementeerd op een GPU ondersteund door externe DRAM, hun methode leidde tot classificatienauwkeurigheden die de nauwkeurigheid benaderen die is verkregen met een meer conventionele methode op basis van cosinusafstandsberekening (bijv. een nauwkeurigheid van 99,5 procent versus een nauwkeurigheid van 99,05 procent voor een 20-weg, vijf-shot leerprobleem). Opmerkelijk, het op TCAM gebaseerde systeem bereikte nauwkeurigheden die vergelijkbaar zijn met die van de meer conventionele benadering met een 60-voudige vermindering van het energieverbruik en 2, 700-voudige reductie in latentie voor een enkele zoekbewerking.
"De bijdragen van dit onderzoek zijn meervoudig, ' zei Ni. 'Ten eerste, we hebben de meest compacte TCAM-cel tot nu toe gedemonstreerd, die slechts uit twee FeFET's bestaat, maar biedt de hoogste geheugendichtheid en waarschijnlijk over het algemeen de beste prestaties van alle andere alternatieven. Ten tweede, we demonstreerden de functionaliteit van HD-afstandsberekening met een TCAM-array. Eindelijk, we hebben de TCAM-kernel in het MANN toegepast voor eenmalig leren en bieden een end-to-end systeemoplossing."
In de toekomst, de nieuwe geheugencomponent die door Ni en zijn collega's is voorgesteld, zou kunnen helpen bij de ontwikkeling van efficiëntere, op deep learning gebaseerde modellen die goed presteren op zowel bekende als nieuwe taken. De onderzoekers zijn nu van plan om een groter TCAM-gebaseerd prototype te ontwikkelen dat een verdere prestatieverbetering mogelijk maakt.
"Het bestaande werk demonstreert onze aanpak op kleine schaal vanwege de beperkingen van onze meetopstelling, " zei Ni. "We zijn van plan een grotere reeks te ontwerpen, samen met belangrijke perifere circuits, zodat de TCAM een stand-alone module kan zijn. Daarnaast, optimalisatie op apparaatniveau is nog steeds nodig om het FeFET-uithoudingsvermogen te verbeteren, variatie, en betrouwbaarheid enz."
© 2019 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com