science >> Wetenschap >  >> Elektronica

Dubbele 8-bit doorbraken brengen AI naar de rand

Een chip met meerdere PCM-apparaten. De elektrische sondes die ermee in contact komen, worden gebruikt om signalen naar afzonderlijke apparaten te sturen om de vermenigvuldiging in het geheugen uit te voeren. Krediet:IBM

Deze week, op de International Electron Devices Meeting (IEDM) en de Conference on Neural Information Processing Systems (NeurIPS), IBM-onderzoekers zullen nieuwe hardware demonstreren die AI verder zal brengen dan voorheen:tot aan de rand. Onze nieuwe benaderingen voor digitale en analoge AI-chips verhogen de snelheid en verminderen de vraag naar energie voor diepgaand leren, zonder in te boeten aan nauwkeurigheid. Aan de digitale kant, we zetten de weg voor een nieuwe industriestandaard in AI-training met een aanpak die volledige nauwkeurigheid bereikt met acht-bits precisie, de trainingstijd twee tot vier keer sneller dan de huidige systemen. Aan de analoge kant, we rapporteren acht-bits precisie - de hoogste tot nu toe - voor een analoge chip, ruwweg een verdubbeling van de nauwkeurigheid in vergelijking met eerdere analoge chips, terwijl 33x minder energie wordt verbruikt dan een digitale architectuur met vergelijkbare precisie. Deze prestaties luiden een nieuw tijdperk in van computerhardware die is ontworpen om het volledige potentieel van AI te ontketenen.

Het post-GPU-tijdperk in

Innovaties in software en AI-hardware hebben sinds 2009 grotendeels geleid tot een verbetering van 2,5x per jaar in computerprestaties voor AI. toen GPU's voor het eerst werden gebruikt om deep learning te versnellen. Maar we bereiken de grenzen van wat GPU's en software kunnen doen. Om onze moeilijkste problemen op te lossen, hardware moet worden opgeschaald. De komende generatie AI-applicaties zal snellere responstijden nodig hebben, grotere AI-workloads, en multimodale gegevens uit talrijke stromen. Om het volledige potentieel van AI te ontketenen, we herontwerpen hardware met AI in gedachten:van accelerators tot speciaal gebouwde hardware voor AI-workloads, zoals onze nieuwe chips, en uiteindelijk quantum computing voor AI. Het schalen van AI met nieuwe hardware-oplossingen maakt deel uit van een bredere inspanning bij IBM Research om over te stappen van smalle AI, vaak gebruikt om specifieke, duidelijk omschreven taken, naar brede AI, die zich uitstrekt over disciplines heen om mensen te helpen onze meest dringende problemen op te lossen.

Digitale AI-versnellers met verminderde precisie

IBM Research lanceerde de benadering met verminderde precisie van AI-modeltraining en inferentie met een baanbrekend document waarin een nieuwe datastroombenadering wordt beschreven voor conventionele CMOS-technologieën om hardwareplatforms te revitaliseren door de bitnauwkeurigheid van gegevens en berekeningen drastisch te verminderen. Modellen getraind met 16-bits precisie werden getoond, voor de allereerste keer, om geen verlies van nauwkeurigheid te vertonen in vergelijking met modellen die zijn getraind met 32-bits precisie. In de daaropvolgende jaren, de benadering met verminderde precisie werd snel aangenomen als de industriestandaard, met 16-bits training en acht-bits gevolgtrekkingen nu gemeengoed, en zorgde voor een explosie van startups en durfkapitaal voor op precisie gebaseerde digitale AI-chips.

De volgende industriestandaard voor AI-training

De volgende belangrijke mijlpaal in training met verminderde precisie zal worden gepresenteerd op NeurIPS in een paper met de titel "Training Deep Neural Networks with eight-bit Floating Point Numbers" (auteurs:Naigang Wang, Jungwook Choi, Daniël Merk, Chia Yu Chen, Kailash Gopalakrishnan). In deze krant, er zijn een aantal nieuwe ideeën voorgesteld om eerdere uitdagingen (en orthodoxies) te overwinnen die verband houden met het verminderen van de trainingsprecisie tot minder dan 16 bits. Met behulp van deze nieuw voorgestelde benaderingen, we hebben aangetoond, Voor de eerste keer, de mogelijkheid om deep learning-modellen met acht-bits precisie te trainen, terwijl de modelnauwkeurigheid volledig behouden blijft in alle belangrijke AI-datasetcategorieën:afbeelding, toespraak, en tekst. De technieken versnellen de trainingstijd voor diepe neurale netwerken (DNN's) met twee tot vier keer ten opzichte van de huidige 16-bits systemen. Hoewel het voorheen onmogelijk werd geacht om de precisie voor training verder te verminderen, we verwachten dat dit 8-bits trainingsplatform de komende jaren een breed geaccepteerde industriestandaard zal worden.

Krediet:IBM

Het verminderen van bitprecisie is een strategie die naar verwachting zal bijdragen aan efficiëntere grootschalige machine learning-platforms, en deze resultaten markeren een belangrijke stap voorwaarts in het opschalen van AI. Door deze aanpak te combineren met een op maat gemaakte dataflow-architectuur, een enkele chiparchitectuur kan worden gebruikt om training en inferencing efficiënt uit te voeren over een reeks van workloads en netwerken, groot en klein. Deze aanpak is ook geschikt voor "mini-batches" van gegevens, vereist voor kritieke brede AI-mogelijkheden zonder afbreuk te doen aan de prestaties. Het realiseren van al deze mogelijkheden met acht-bits precisie voor training opent ook het rijk van energie-efficiënte brede AI aan de rand.

Analoge chips voor in-memory computing

Dankzij het lage stroomverbruik, hoge energie-efficiëntie, en hoge betrouwbaarheid, analoge technologie past perfect bij AI aan de rand. Analoge versnellers zullen een routekaart van AI-hardwareversnelling voeden die de grenzen van conventionele digitale benaderingen overstijgt. Echter, overwegende dat digitale AI-hardware in een race verkeert om de precisie te verminderen, analoog is tot nu toe beperkt door zijn relatief lage intrinsieke precisie, de nauwkeurigheid van het model beïnvloeden. Om dit te compenseren hebben we een nieuwe techniek ontwikkeld, het bereiken van de hoogste precisie tot nu toe voor een analoge chip. Onze krant bij IEDM, "8-bit Precision In-Memory Multiplication met Projected Phase-Change Memory" (auteurs:Iason Giannopoulos, Aboe Sebastiaan, Manuel Le Gallo, V.P. Jonnalagadda, de heer Sousa, M.N. Boon, Evangelos Eleftheriou), laat zien dat deze techniek acht-bits precisie bereikte in een scalaire vermenigvuldigingsbewerking, ongeveer een verdubbeling van de nauwkeurigheid van eerdere analoge chips, en verbruikte 33x minder energie dan een digitale architectuur van vergelijkbare precisie.

De sleutel tot het verminderen van het energieverbruik is het veranderen van de architectuur van computers. Met de computerhardware van vandaag, gegevens moeten van het geheugen naar processors worden verplaatst om in berekeningen te worden gebruikt, wat veel tijd en energie kost. Een alternatief is in-memory computing, waarin geheugeneenheden maanlicht als processors, effectief dubbele taak van zowel opslag als berekening. Dit vermijdt de noodzaak om gegevens tussen geheugen en processor te pendelen, tijd besparen en de energievraag met 90 procent of meer verminderen.

Geheugen voor faseverandering

Ons apparaat maakt gebruik van Phase Change Memory (PCM) voor in-memory computing. PCM registreert synaptische gewichten in zijn fysieke toestand langs een gradiënt tussen amorf en kristallijn. De geleidbaarheid van het materiaal verandert samen met de fysieke toestand en kan worden gewijzigd met behulp van elektrische pulsen. Zo kan PCM berekeningen uitvoeren. Omdat de toestand overal langs het continuüm tussen nul en één kan zijn, het wordt beschouwd als een analoge waarde, in tegenstelling tot een digitale waarde, die ofwel een nul of een één is, niets er tussenin.

We hebben de precisie en stabiliteit van de in PCM opgeslagen gewichten verbeterd met een nieuwe aanpak, genaamd geprojecteerde PCM (Proj-PCM), waarin we een niet-isolerend projectiesegment invoegen parallel aan het faseovergangssegment. Tijdens het schrijfproces het projectiesegment heeft een minimale impact op de werking van het apparaat. Echter, tijdens het lezen, geleidingswaarden van geprogrammeerde toestanden worden meestal bepaald door het projectiesegment, die opmerkelijk immuun is voor geleidingsvariaties. Hierdoor kunnen Proj-PCM-apparaten een veel hogere precisie bereiken dan eerdere PCM-apparaten.

De verbeterde precisie die door ons onderzoeksteam is bereikt, geeft aan dat in-memory computing mogelijk in staat is om high-performance deep learning te bereiken in omgevingen met weinig stroom, zoals IoT en edge-applicaties. Net als bij onze digitale versnellers, onze analoge chips zijn ontworpen om te schalen voor AI-training en inferentie over visuele, toespraak, en tekstdatasets en uitbreiden naar opkomende brede AI. We zullen de hele week een eerder gepubliceerde PCM-chip demonstreren op NeurIPS, gebruiken om handgeschreven cijfers in realtime via de cloud te classificeren.

Dit verhaal is opnieuw gepubliceerd met dank aan IBM Research. Lees hier het originele verhaal.