Wetenschap
Onderzoekers van MIT en het Qatar Computing Research Institute (QCRI) nemen de machine learning-systemen die bekend staan als neurale netwerken onder de loep. Krediet:MIT Nieuws
Onderzoekers van MIT en het Qatar Computing Research Institute (QCRI) nemen de machine learning-systemen die bekend staan als neurale netwerken onder de loep.
In een onderzoek dat licht werpt op hoe deze systemen erin slagen tekst van de ene taal naar de andere te vertalen, de onderzoekers ontwikkelden een methode die individuele knooppunten lokaliseert, of "neuronen, " in de netwerken die specifieke linguïstische kenmerken vastleggen.
Neurale netwerken leren rekentaken uit te voeren door enorme sets trainingsgegevens te verwerken. Bij machinevertaling, een netwerk kraakt taalgegevens die door mensen zijn geannoteerd, en vermoedelijk "leert" linguïstische kenmerken, zoals woordmorfologie, zinsopbouw, en woordbetekenis. Gegeven nieuwe tekst, deze netwerken matchen deze geleerde functies van de ene taal naar de andere, en maak een vertaling.
Maar, in opleiding, deze netwerken passen in feite interne instellingen en waarden aan op manieren die de makers niet kunnen interpreteren. Voor machinevertaling, dat betekent dat de makers niet per se weten welke taalkundige kenmerken het netwerk vastlegt.
In een paper die deze week wordt gepresenteerd op de Association for the Advancement of Artificial Intelligence-conferentie, de onderzoekers beschrijven een methode die identificeert welke neuronen het meest actief zijn bij het classificeren van specifieke linguïstische kenmerken. Ze hebben ook een toolkit ontworpen waarmee gebruikers kunnen analyseren en manipuleren hoe hun netwerken tekst voor verschillende doeleinden vertalen, zoals het compenseren van eventuele classificatiebias in de trainingsgegevens.
In hun krant de onderzoekers lokaliseren neuronen die worden gebruikt om te classificeren, bijvoorbeeld, geslachtswoorden, verleden en tegenwoordige tijd, cijfers aan het begin of midden van zinnen, en meervouds- en enkelvoudswoorden. Ze laten ook zien hoe voor sommige van deze taken veel neuronen nodig zijn, terwijl andere slechts één of twee nodig hebben.
"Ons onderzoek heeft tot doel om in neurale netwerken naar taal te kijken en te zien welke informatie ze leren, " zegt co-auteur Yonatan Belinkov, een postdoc in het Computer Science and Artificial Intelligence Laboratory (CSAIL). "Dit werk gaat over het verkrijgen van een fijnmaziger begrip van neurale netwerken en een betere controle over hoe deze modellen zich gedragen."
Co-auteurs van het artikel zijn:senior onderzoeker James Glass en student Anthony Bau, van CSAIL; en Hassan Sajjad, Nadir Durrani, en Fahim Dalvi, van QCRI.
Een microscoop op neuronen plaatsen
Neurale netwerken zijn gestructureerd in lagen, waarbij elke laag uit vele verwerkingsknooppunten bestaat, elk verbonden met knooppunten in lagen erboven en eronder. Gegevens worden eerst verwerkt in de onderste laag, die een uitvoer doorgeeft aan de bovenstaande laag, enzovoort. Elke uitvoer heeft een ander "gewicht" om te bepalen hoeveel het in de berekening van de volgende laag voorkomt. Tijdens de training, deze gewichten worden voortdurend bijgesteld.
Neurale netwerken die worden gebruikt voor machinevertaling, trainen op geannoteerde taalgegevens. In opleiding, elke laag leert verschillende "woordinbeddingen" voor één woord. Woordinbeddingen zijn in wezen tabellen van enkele honderden getallen die zijn gecombineerd op een manier die overeenkomt met één woord en de functie van dat woord in een zin. Elk nummer in de inbedding wordt berekend door een enkel neuron.
In hun vroegere werk, de onderzoekers trainden een model om de gewogen output van elke laag te analyseren om te bepalen hoe de lagen een bepaalde inbedding classificeerden. Ze ontdekten dat lagere lagen relatief eenvoudiger linguïstische kenmerken classificeerden, zoals de structuur van een bepaald woord, en hogere niveaus hielpen bij het classificeren van complexere kenmerken. zoals hoe de woorden combineren om betekenis te vormen.
In hun nieuwe werk de onderzoekers gebruiken deze benadering om te bepalen hoe geleerde woordinbeddingen een taalkundige classificatie vormen. Maar ze implementeerden ook een nieuwe techniek, genaamd "linguïstische correlatieanalyse, " dat een model traint om zich in te leven in de individuele neuronen in elk woord dat het belangrijkst was in de classificatie.
De nieuwe techniek combineert alle inbeddingen die zijn vastgelegd uit verschillende lagen - die elk informatie bevatten over de uiteindelijke classificatie van het woord - in één enkele inbedding. Als het netwerk een bepaald woord classificeert, het model leert gewichten voor elk neuron dat tijdens elk classificatieproces werd geactiveerd. Dit geeft een gewicht aan elk neuron in elk woord dat is ingebed voor een specifiek deel van de classificatie.
"Het idee is, als dit neuron belangrijk is, er moet een hoog gewicht zijn dat wordt geleerd, " zegt Belinkov. "De neuronen met een hoog gewicht zijn degenen die belangrijker zijn om de bepaalde taaleigenschap te voorspellen. Je kunt de neuronen zien als een heleboel knoppen waaraan je moet draaien om de juiste combinatie van cijfers in de inbedding te krijgen. Sommige knoppen zijn belangrijker dan andere, dus de techniek is een manier om belang toe te kennen aan die knoppen."
ablatie van neuronen, modelmanipulatie
Omdat elk neuron wordt gewogen, het kan worden gerangschikt in volgorde van belangrijkheid. Daartoe, de onderzoekers ontwierpen een toolkit, genaamd NeuroX, dat automatisch alle neuronen van een neuraal netwerk rangschikt op basis van hun belang en ze visualiseert in een webinterface.
Gebruikers uploaden een netwerk dat ze al hebben getraind, evenals nieuwe tekst. De app toont de tekst en, ernaast, een lijst van specifieke neuronen, elk met een identificatienummer. Wanneer een gebruiker op een neuron klikt, de tekst wordt gemarkeerd, afhankelijk van de woorden en zinnen waarvoor het neuron wordt geactiveerd. Vanaf daar, gebruikers kunnen de neuronen volledig uitschakelen - of "ablaten", of de omvang van hun activering wijzigen, om te bepalen hoe het netwerk zich vertaalt.
De taak van ablatie werd gebruikt om te bepalen of de methode van de onderzoekers nauwkeurig de juiste hooggeplaatste neuronen aangaf. In hun krant gebruikten de onderzoekers de tool om aan te tonen dat, door hooggeplaatste neuronen in een netwerk te verwijderen, zijn prestaties bij het classificeren van gecorreleerde linguïstische kenmerken daalden aanzienlijk. Alternatief, toen ze lagere neuronen ableerden, prestatie geleden, maar niet zo dramatisch.
"Nadat je al deze ranglijsten hebt gekregen, je wilt zien wat er gebeurt als je deze neuronen doodt en zien hoe erg het de prestaties beïnvloedt, ', zegt Belinkov. 'Dat is een belangrijk resultaat dat bewijst dat de neuronen die we vinden, in feite, belangrijk voor het classificatieproces."
Een interessante toepassing van de toolkit is het helpen beperken van vooroordelen in taalgegevens. Machinevertaling modellen, zoals Google Vertalen, kan trainen op gegevens met gendervooroordelen, wat problematisch kan zijn voor talen met geslachtsgebonden woorden. Bepaalde beroepen, bijvoorbeeld, wordt vaker mannelijk genoemd, en anderen als vrouwelijk. Wanneer een netwerk nieuwe tekst vertaalt, het kan alleen het geleerde geslacht voor die woorden produceren. In veel online Engels-Spaanse vertalingen, bijvoorbeeld, "dokter" vertaalt zich vaak in de mannelijke versie, terwijl "verpleegster" zich vertaalt in de vrouwelijke versie.
"Maar we ontdekken dat we individuele neuronen kunnen traceren die verantwoordelijk zijn voor taalkundige eigenschappen zoals geslacht, ' zegt Belinkov. 'Als je ze kunt traceren, misschien kun je op de een of andere manier ingrijpen en de vertaling beïnvloeden om deze woorden meer naar het andere geslacht te vertalen … om de vooringenomenheid weg te nemen of te verminderen."
In voorlopige experimenten, de onderzoekers wijzigden neuronen in een netwerk om vertaalde tekst van verleden naar tegenwoordige tijd te veranderen met een nauwkeurigheid van 67 procent. Ze ableerden om het geslacht van de woorden te veranderen met een nauwkeurigheid van 21 procent. "Het is nog een work in progress, " zegt Belinkov. Een volgende stap, hij voegt toe, is de webapplicatie aan het verfijnen om nauwkeurigere ablatie en manipulatie te bereiken.
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com