science >> Wetenschap >  >> Elektronica

Machine-learning systeem pakt spraak- en objectherkenning aan, alles in een keer

Computerwetenschappers van het MIT hebben een systeem ontwikkeld dat leert objecten in een afbeelding te identificeren, op basis van een gesproken beschrijving van het beeld. Krediet:Christine Daniloff

Computerwetenschappers van het MIT hebben een systeem ontwikkeld dat leert objecten in een afbeelding te identificeren, op basis van een gesproken beschrijving van het beeld. Gegeven een afbeelding en een audiobijschrift, het model zal in realtime de relevante regio's van de afbeelding die wordt beschreven markeren.

In tegenstelling tot de huidige spraakherkenningstechnologieën, het model vereist geen handmatige transcripties en annotaties van de voorbeelden waarop het is getraind. In plaats daarvan, het leert woorden rechtstreeks van opgenomen spraakfragmenten en objecten in onbewerkte afbeeldingen, en associeert ze met elkaar.

Het model kan momenteel slechts enkele honderden verschillende woorden en objecttypes herkennen. Maar de onderzoekers hopen dat hun gecombineerde spraak-objectherkenningstechniek op een dag talloze uren aan handarbeid kan besparen en nieuwe deuren kan openen in spraak- en beeldherkenning.

Spraakherkenningssystemen zoals Siri en Google Voice, bijvoorbeeld, vereisen transcripties van vele duizenden uren aan spraakopnames. Met behulp van deze gegevens, de systemen leren spraaksignalen met specifieke woorden in kaart te brengen. Een dergelijke benadering wordt vooral problematisch wanneer, zeggen, nieuwe termen komen in ons lexicon, en de systemen moeten worden omgeschoold.

"We wilden spraakherkenning doen op een manier die natuurlijker is, gebruik te maken van aanvullende signalen en informatie die mensen kunnen gebruiken, maar waar machine learning-algoritmen doorgaans geen toegang toe hebben. We kwamen op het idee om een ​​model te trainen op een manier die vergelijkbaar is met het lopen van een kind door de wereld en vertellen wat je ziet, " zegt David Harwath, een onderzoeker in het Computer Science and Artificial Intelligence Laboratory (CSAIL) en de Spoken Language Systems Group. Harwath was co-auteur van een paper waarin het model werd beschreven dat werd gepresenteerd op de recente Europese conferentie over computervisie.

In de krant, demonstreren de onderzoekers hun model op een afbeelding van een jong meisje met blond haar en blauwe ogen, het dragen van een blauwe jurk, met een witte vuurtoren met een rood dak op de achtergrond. Het model leerde te associëren welke pixels in de afbeelding overeenkwamen met de woorden "meisje, " "blond haar, " "blauwe ogen, " "blauwe jurk, " "wit licht huis, " en "rood dak." Toen een audio-onderschrift werd verteld, het model benadrukte vervolgens elk van die objecten in de afbeelding zoals ze werden beschreven.

Een veelbelovende toepassing is het leren van vertalingen tussen verschillende talen, zonder dat er een tweetalige annotator nodig is. Van de naar schatting 7 000 talen die wereldwijd worden gesproken, slechts 100 of zo hebben voldoende transcriptiegegevens voor spraakherkenning. Overwegen, echter, een situatie waarin twee sprekers van verschillende talen hetzelfde beeld beschrijven. Als het model spraaksignalen leert van taal A die overeenkomen met objecten in het beeld, en leert de signalen in taal B die overeenkomen met diezelfde objecten, het zou kunnen aannemen dat die twee signalen - en overeenkomende woorden - vertalingen van elkaar zijn.

"Er is potentieel voor een Babel Fish-achtig mechanisme, "Harwath zegt, verwijzend naar de fictieve levende oortelefoon in de romans "Hitchhiker's Guide to the Galaxy" die verschillende talen naar de drager vertaalt.

De co-auteurs van CSAIL zijn:promovendus Adria Recasens; gaststudent Didac Suris; voormalig onderzoeker Galen Chuang; Antonio Torralba, een professor in elektrotechniek en informatica die ook aan het hoofd staat van het MIT-IBM Watson AI Lab; en senior onderzoekswetenschapper James Glass, die de Spoken Language Systems Group bij CSAIL leidt.

Audiovisuele associaties

Dit werk bouwt voort op een eerder model ontwikkeld door Harwath, Glas, en Torralba dat spraak correleert met groepen thematisch verwante beelden. In het eerdere onderzoek is ze zetten beelden van scènes uit een classificatiedatabase op het crowdsourcing platform Mechanical Turk. Vervolgens lieten ze mensen de beelden beschrijven alsof ze het aan een kind vertelden, gedurende ongeveer 10 seconden. Ze verzamelden meer dan 200, 000 paar afbeeldingen en audiobijschriften, in honderden verschillende categorieën, zoals stranden, winkelcentra, stadsstraten, en slaapkamers.

Vervolgens ontwierpen ze een model dat bestaat uit twee afzonderlijke convolutionele neurale netwerken (CNN's). Men verwerkt beelden, en men verwerkt spectrogrammen, een visuele weergave van audiosignalen omdat ze in de loop van de tijd variëren. De hoogste laag van het model berekent de output van de twee netwerken en brengt de spraakpatronen in kaart met beeldgegevens.

De onderzoekers zouden, bijvoorbeeld, voer het model bijschrift A en afbeelding A, welke is correct. Vervolgens, ze zouden het een willekeurig bijschrift B geven met afbeelding A, wat een onjuiste koppeling is. Na het vergelijken van duizenden verkeerde bijschriften met afbeelding A, het model leert de spraaksignalen die overeenkomen met afbeelding A, en associeert die signalen met woorden in de bijschriften. Zoals beschreven in een onderzoek uit 2016, het model leerde, bijvoorbeeld, om het signaal te kiezen dat overeenkomt met het woord "water, " en om beelden met watermassa's op te halen.

"Maar het bood geen manier om te zeggen, 'Dit is het exacte tijdstip waarop iemand een specifiek woord zei dat verwijst naar dat specifieke stukje pixels, ', zegt Harwath.

Een matchmap maken

In de nieuwe krant de onderzoekers hebben het model aangepast om specifieke woorden te associëren met specifieke stukjes pixels. De onderzoekers trainden het model op dezelfde database, maar met een nieuw totaal van 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.

In opleiding, the model is similarly given correct and incorrect images and captions. But this time, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, zeggen, one second to capture a word or two.

With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, enzovoort, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.

The challenge is that, during training, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."

The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.

"It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.