science >> Wetenschap >  >> Elektronica

Verschillen tussen diepe neurale netwerken en menselijke waarneming

Krediet:CC0 Publiek Domein

Als je moeder je naam roept, je weet dat het haar stem is, ongeacht het volume, zelfs over een slechte mobiele telefoonverbinding. En als je haar gezicht ziet, je weet dat het van haar is - als ze ver weg is, als de verlichting slecht is, of als u een slecht FaceTime-gesprek voert. Deze robuustheid voor variatie is een kenmerk van de menselijke waarneming. Anderzijds, we zijn vatbaar voor illusies:we kunnen misschien geen onderscheid maken tussen geluiden of beelden die, in feite, verschillend. Wetenschappers hebben veel van deze illusies verklaard, maar we hebben geen volledig begrip van de invarianties in onze auditieve en visuele systemen.

Diepe neurale netwerken hebben ook taken voor spraakherkenning en beeldclassificatie uitgevoerd met een indrukwekkende robuustheid voor variaties in de auditieve of visuele stimuli. Maar zijn de invarianties die door deze modellen worden geleerd, vergelijkbaar met de invarianties die door menselijke perceptuele systemen worden geleerd? Een groep MIT-onderzoekers heeft ontdekt dat ze anders zijn. Ze presenteerden hun bevindingen gisteren op de 2019 Conference on Neural Information Processing Systems.

De onderzoekers maakten een nieuwe generalisatie van een klassiek concept:"metameren" - fysiek verschillende stimuli die hetzelfde perceptuele effect genereren. De bekendste voorbeelden van metameerprikkels ontstaan ​​omdat de meeste mensen drie verschillende soorten kegeltjes in hun netvlies hebben, die verantwoordelijk zijn voor het kleurenzicht. De waargenomen kleur van een enkele lichtgolflengte kan exact worden geëvenaard door een bepaalde combinatie van drie lichten van verschillende kleuren, bijvoorbeeld rood, groente, en blauwe lichten. Negentiende-eeuwse wetenschappers leidden uit deze waarneming af dat mensen drie verschillende soorten helderlichtdetectoren in onze ogen hebben. Dit is de basis voor elektronische kleurendisplays op alle schermen waar we elke dag naar staren. Een ander voorbeeld in het visuele systeem is dat wanneer we onze blik op een object fixeren, we kunnen omringende visuele scènes die aan de periferie verschillen, als identiek waarnemen. In het auditieve domein iets analoogs kan worden waargenomen. Bijvoorbeeld, het "texturale" geluid van twee zwermen insecten is misschien niet te onderscheiden, ondanks de verschillen in de akoestische details waaruit ze bestaan, omdat ze vergelijkbare geaggregeerde statistische eigenschappen hebben. In ieder geval, de metameren geven inzicht in de mechanismen van perceptie, en beperken modellen van de menselijke visuele of auditieve systemen.

Krediet:Massachusetts Institute of Technology

In het huidige werk de onderzoekers kozen willekeurig natuurlijke afbeeldingen en geluidsfragmenten van gesproken woorden uit standaarddatabases, en vervolgens geluiden en beelden synthetiseerd, zodat diepe neurale netwerken ze in dezelfde klassen zouden sorteren als hun natuurlijke tegenhangers. Dat is, ze genereerden fysiek verschillende stimuli die identiek worden geclassificeerd door modellen, in plaats van door mensen. Dit is een nieuwe manier om over metameren te denken, het concept generaliseren om de rol van computermodellen te verwisselen voor menselijke waarnemers. Ze noemden deze gesynthetiseerde stimuli daarom "modelmetamers" van de gepaarde natuurlijke stimuli. De onderzoekers testten vervolgens of mensen de woorden en afbeeldingen konden herkennen.

"Deelnemers hoorden een kort spraaksegment en moesten uit een lijst met woorden identificeren welk woord in het midden van de clip stond. Voor de natuurlijke audio is deze taak eenvoudig, maar voor veel van de modelmetamers hadden mensen moeite om het geluid te herkennen, " legt eerste auteur Jenelle Feather uit, een afgestudeerde student in het MIT Department of Brain and Cognitive Sciences (BCS) en een lid van het Center for Brains, geesten, en Machines (CBMM). Dat is, mensen zouden de synthetische stimuli niet in dezelfde klasse plaatsen als het gesproken woord "vogel" of het beeld van een vogel. In feite, modelmetamers die werden gegenereerd om overeen te komen met de reacties van de diepste lagen van het model waren over het algemeen onherkenbaar als woorden of afbeeldingen door menselijke proefpersonen.

Josh McDermott, universitair hoofddocent BCS en onderzoeker in CBMM, maakt de volgende casus:"De basislogica is dat als we een goed model van menselijke waarneming hebben, zeg maar van spraakherkenning, als we dan twee geluiden kiezen waarvan het model zegt dat ze hetzelfde zijn en deze twee geluiden presenteren aan een menselijke luisteraar, die mens zou ook moeten zeggen dat de twee geluiden hetzelfde zijn. Als de menselijke luisteraar in plaats daarvan de stimuli anders waarneemt, dit is een duidelijke indicatie dat de representaties in ons model niet overeenkomen met die van de menselijke perceptie."

Samen met Feather en McDermott op het papier zijn Alex Durango, een post-baccalaureaat student, en Ray Gonzalez, een onderzoeksassistent, beide in BCS.

Er is een ander type falen van diepe netwerken dat veel aandacht heeft gekregen in de media:tegenstrijdige voorbeelden (zie, bijvoorbeeld, "Waarom heeft mijn classifier een schildpad voor een geweer aangezien?"). Dit zijn stimuli die op mensen lijken, maar die door een modelnetwerk verkeerd zijn geclassificeerd (door ontwerp - ze zijn geconstrueerd om verkeerd te worden geclassificeerd). Ze zijn complementair aan de stimuli die door Feather's groep worden gegenereerd, die anders klinken of lijken dan mensen, maar die zijn ontworpen om door het modelnetwerk te worden geclassificeerd. De kwetsbaarheden van modelnetwerken die worden blootgesteld aan vijandige aanvallen zijn bekend:gezichtsherkenningssoftware kan identiteitsfouten maken; geautomatiseerde voertuigen kunnen voetgangers mogelijk niet herkennen.

Het belang van dit werk ligt in het verbeteren van perceptiemodellen buiten diepe netwerken. Hoewel de standaard voorbeelden van tegenstanders wijzen op verschillen tussen diepe netwerken en menselijke perceptuele systemen, de nieuwe stimuli die door de McDermott-groep worden gegenereerd, vertegenwoordigen aantoonbaar een meer fundamenteel modelfalen - ze laten zien dat generieke voorbeelden van stimuli die door een diep netwerk als hetzelfde worden geclassificeerd, voor mensen enorm verschillende waarnemingen produceren.

Het team heeft ook manieren bedacht om de modelnetwerken aan te passen om metameren op te leveren die meer aannemelijke geluiden en afbeeldingen waren voor mensen. Zoals McDermott zegt, "Dit geeft ons hoop dat we uiteindelijk modellen kunnen ontwikkelen die de metameertest doorstaan ​​en menselijke invarianties beter kunnen vastleggen."

"Modelmetamers demonstreren een significant falen van de huidige neurale netwerken om de invarianties in de menselijke visuele en auditieve systemen te evenaren, " zegt Veer, "We hopen dat dit werk een bruikbare gedragsmeetlat zal opleveren om modelrepresentaties te verbeteren en betere modellen van menselijke sensorische systemen te creëren."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.