science >> Wetenschap >  >> Elektronica

Waar komt dat geluid vandaan? Een computermodel kan die vraag beantwoorden, evenals het menselijk brein

Tegoed:CC0 Publiek Domein

Het menselijk brein is nauwkeurig afgesteld, niet alleen om bepaalde geluiden te herkennen, maar ook om te bepalen uit welke richting ze komen. Door verschillen in geluiden die het rechter- en linkeroor bereiken te vergelijken, kunnen de hersenen de locatie inschatten van een blaffende hond, een jammerende brandweerwagen of een naderende auto.

MIT-neurowetenschappers hebben nu een computermodel ontwikkeld dat ook die complexe taak kan uitvoeren. Het model, dat uit verschillende convolutionele neurale netwerken bestaat, voert de taak niet alleen net zo goed uit als mensen, het worstelt ook op dezelfde manier als mensen.

"We hebben nu een model dat geluiden in de echte wereld kan lokaliseren", zegt Josh McDermott, universitair hoofddocent hersen- en cognitieve wetenschappen en lid van MIT's McGovern Institute for Brain Research. "En toen we het model als een menselijke experimentele deelnemer behandelden en deze grote reeks experimenten simuleerden waarop mensen in het verleden mensen hadden getest, ontdekten we steeds weer dat het model de resultaten recapituleert die je bij mensen ziet."

Bevindingen uit de nieuwe studie suggereren ook dat het vermogen van mensen om locatie waar te nemen is aangepast aan de specifieke uitdagingen van onze omgeving, zegt McDermott, die ook lid is van MIT's Center for Brains, Minds, and Machines.

McDermott is de hoofdauteur van het artikel, dat vandaag verschijnt in Nature Human Behaviour . De hoofdauteur van de paper is MIT-student Andrew Francl.

Modellerlokalisatie

Wanneer we een geluid horen, zoals een treinfluit, bereiken de geluidsgolven onze rechter- en linkeroor op enigszins verschillende tijdstippen en intensiteiten, afhankelijk van uit welke richting het geluid komt. Delen van de middenhersenen zijn gespecialiseerd om deze kleine verschillen te vergelijken om te helpen inschatten uit welke richting het geluid kwam, een taak die ook wel lokalisatie wordt genoemd.

Deze taak wordt aanzienlijk moeilijker onder reële omstandigheden - waar de omgeving echo's produceert en veel geluiden tegelijk hoorbaar zijn.

Wetenschappers hebben lang geprobeerd computermodellen te bouwen die dezelfde soort berekeningen kunnen uitvoeren die de hersenen gebruiken om geluiden te lokaliseren. Deze modellen werken soms goed in geïdealiseerde omgevingen zonder achtergrondgeluid, maar nooit in echte omgevingen, met hun geluiden en echo's.

Om een ​​meer geavanceerd model van lokalisatie te ontwikkelen, wendde het MIT-team zich tot convolutionele neurale netwerken. Dit soort computermodellering is op grote schaal gebruikt om het menselijke visuele systeem te modelleren, en meer recentelijk zijn McDermott en andere wetenschappers begonnen het ook toe te passen op audities.

Convolutionele neurale netwerken kunnen worden ontworpen met veel verschillende architecturen, dus om hen te helpen degene te vinden die het beste zou werken voor lokalisatie, gebruikte het MIT-team een ​​supercomputer waarmee ze ongeveer 1.500 verschillende modellen konden trainen en testen. Die zoekopdracht identificeerde 10 die het meest geschikt leken voor lokalisatie, die de onderzoekers verder trainden en gebruikten voor al hun volgende onderzoeken.

Om de modellen te trainen, creëerden de onderzoekers een virtuele wereld waarin ze de grootte van de kamer en de reflectie-eigenschappen van de muren van de kamer kunnen regelen. Alle geluiden die naar de modellen werden gevoerd, kwamen ergens vandaan in een van deze virtuele kamers. De set van meer dan 400 trainingsgeluiden omvatte menselijke stemmen, dierengeluiden, machinegeluiden zoals automotoren en natuurlijke geluiden zoals donder.

De onderzoekers zorgden er ook voor dat het model begon met dezelfde informatie die door menselijke oren wordt verstrekt. Het buitenoor, of oorschelp, heeft veel plooien die geluid reflecteren, waardoor de frequenties die het oor binnenkomen veranderen, en deze reflecties variëren afhankelijk van waar het geluid vandaan komt. De onderzoekers simuleerden dit effect door elk geluid door een gespecialiseerde wiskundige functie te laten lopen voordat het in het computermodel ging.

"Hierdoor kunnen we het model dezelfde soort informatie geven die een persoon zou hebben", zegt Francl.

Na het trainen van de modellen testten de onderzoekers ze in een echte omgeving. Ze plaatsten een mannequin met microfoons in zijn oren in een echte kamer en speelden geluiden uit verschillende richtingen, en voerden die opnames vervolgens in de modellen. De modellen presteerden zeer vergelijkbaar met mensen toen ze werden gevraagd om deze geluiden te lokaliseren.

"Hoewel het model werd getraind in een virtuele wereld, kon het, toen we het evalueerden, geluiden in de echte wereld lokaliseren", zegt Francl.

Vergelijkbare patronen

De onderzoekers hebben de modellen vervolgens onderworpen aan een reeks tests die wetenschappers in het verleden hebben gebruikt om het lokalisatievermogen van mensen te bestuderen.

Naast het analyseren van het verschil in aankomsttijd bij het rechter- en linkeroor, baseert het menselijk brein zijn locatiebeoordelingen ook op verschillen in de intensiteit van het geluid dat elk oor bereikt. Eerdere studies hebben aangetoond dat het succes van beide strategieën varieert afhankelijk van de frequentie van het binnenkomende geluid. In de nieuwe studie ontdekte het MIT-team dat de modellen hetzelfde patroon van gevoeligheid voor frequentie vertoonden.

"Het model lijkt timing- en niveauverschillen tussen de twee oren op dezelfde manier te gebruiken als mensen, op een manier die frequentieafhankelijk is", zegt McDermott.

De onderzoekers toonden ook aan dat wanneer ze lokalisatietaken moeilijker maakten, door meerdere geluidsbronnen die tegelijkertijd werden afgespeeld toe te voegen, de prestaties van de computermodellen afnamen op een manier die menselijke faalpatronen onder dezelfde omstandigheden nauw nabootste.

"Naarmate je meer en meer bronnen toevoegt, krijg je een specifiek patroon van achteruitgang in het vermogen van mensen om het aantal aanwezige bronnen nauwkeurig te beoordelen, en hun vermogen om die bronnen te lokaliseren", zegt Francl. "Mensen lijken beperkt te zijn tot het lokaliseren van ongeveer drie bronnen tegelijk, en toen we dezelfde test op het model uitvoerden, zagen we een echt vergelijkbaar gedragspatroon."

Omdat de onderzoekers een virtuele wereld gebruikten om hun modellen te trainen, konden ze ook onderzoeken wat er gebeurt als hun model leerde lokaliseren in verschillende soorten onnatuurlijke omstandigheden. De onderzoekers trainden een set modellen in een virtuele wereld zonder echo's, en een andere in een wereld waar er nooit meer dan één geluid tegelijk te horen was. In een derde werden de modellen alleen blootgesteld aan geluiden met een smal frequentiebereik, in plaats van natuurlijk voorkomende geluiden.

Toen de modellen die in deze onnatuurlijke werelden waren getraind, werden geëvalueerd op dezelfde reeks gedragstests, weken de modellen af ​​van het menselijk gedrag en de manier waarop ze faalden, was afhankelijk van het soort omgeving waarin ze waren getraind. Deze resultaten ondersteunen het idee dat het lokalisatievermogen van het menselijk brein is aangepast aan de omgeving waarin de mens is geëvolueerd, zeggen de onderzoekers.

De onderzoekers passen dit type modellering nu toe op andere aspecten van auditie, zoals toonhoogteperceptie en spraakherkenning, en denken dat het ook kan worden gebruikt om andere cognitieve fenomenen te begrijpen, zoals de limieten van waar een persoon op kan letten of onthouden. , zegt McDermott.