Wetenschap
Een nieuw door MIT ontwikkeld model automatiseert een cruciale stap in het gebruik van AI voor medische besluitvorming, waar experts meestal met de hand belangrijke kenmerken in enorme patiëntdatasets identificeren. Het model was in staat om automatisch stempatronen te identificeren van mensen met stembandknobbeltjes (hier weergegeven) en, beurtelings, gebruik die functies om te voorspellen welke mensen de stoornis wel en niet hebben. Krediet:Massachusetts Institute of Technology
MIT-computerwetenschappers hopen het gebruik van kunstmatige intelligentie te versnellen om medische besluitvorming te verbeteren, door een belangrijke stap te automatiseren die meestal met de hand wordt gedaan - en dat wordt steeds arbeidsintensiever naarmate bepaalde datasets steeds groter worden.
Het gebied van voorspellende analyses belooft steeds meer om clinici te helpen bij het diagnosticeren en behandelen van patiënten. Modellen voor machinaal leren kunnen worden getraind om patronen in patiëntgegevens te vinden om te helpen bij sepsiszorg, veiligere chemotherapieregimes ontwerpen, en voorspel het risico van een patiënt om borstkanker te krijgen of te overlijden op de IC, om maar een paar voorbeelden te noemen.
Typisch, trainingsdatasets bestaan uit veel zieke en gezonde proefpersonen, maar met relatief weinig gegevens voor elk onderwerp. Experts moeten dan juist die aspecten - of 'kenmerken' - in de datasets vinden die belangrijk zijn voor het maken van voorspellingen.
Deze "feature engineering" kan een moeizaam en duur proces zijn. Maar het wordt nog uitdagender met de opkomst van draagbare sensoren, omdat onderzoekers gemakkelijker de biometrische gegevens van patiënten over lange perioden kunnen volgen, het volgen van slaappatronen, gang, en stemactiviteit, bijvoorbeeld. Na slechts een week monitoring, experts kunnen voor elk onderwerp meerdere miljarden gegevensmonsters hebben.
In een paper die deze week op de Machine Learning for Healthcare-conferentie wordt gepresenteerd, MIT-onderzoekers demonstreren een model dat automatisch functies leert die voorspellend zijn voor stembandaandoeningen. De kenmerken komen uit een dataset van ongeveer 100 proefpersonen, elk met ongeveer een week aan spraakmonitoringgegevens en enkele miljarden samples - met andere woorden, een klein aantal onderwerpen en een grote hoeveelheid gegevens per onderwerp. De dataset bevat signalen die zijn vastgelegd van een kleine versnellingsmetersensor die op de nek van de proefpersoon is gemonteerd.
Bij experimenten, het model gebruikte functies die automatisch uit deze gegevens werden geëxtraheerd om te classificeren, met hoge nauwkeurigheid, patiënten met en zonder stembandknobbeltjes. Dit zijn laesies die zich ontwikkelen in het strottenhoofd, vaak vanwege patronen van stemmisbruik, zoals het zingen van liedjes of schreeuwen. belangrijk, het model volbracht deze taak zonder een grote set met de hand gelabelde gegevens.
"Het wordt steeds eenvoudiger om datasets met lange tijdreeksen te verzamelen. Maar je hebt artsen die hun kennis moeten toepassen bij het labelen van de dataset, " zegt hoofdauteur Jose Javier Gonzalez Ortiz, een doctoraat student in het MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). "We willen dat handmatige deel voor de experts verwijderen en alle feature-engineering overdragen aan een machine-learningmodel."
Het model kan worden aangepast om patronen van elke ziekte of aandoening te leren. Maar het vermogen om de dagelijkse stemgebruikspatronen geassocieerd met stembandknobbeltjes te detecteren, is een belangrijke stap in het ontwikkelen van verbeterde methoden om te voorkomen, diagnostiseren, en behandel de aandoening, zeggen de onderzoekers. Dat kan het ontwerpen van nieuwe manieren inhouden om mensen te identificeren en te waarschuwen voor mogelijk schadelijk vocaal gedrag.
Deelnemen aan Gonzalez Ortiz op het papier is John Guttag, de Dugald C. Jackson hoogleraar computerwetenschappen en elektrotechniek en hoofd van de Data Driven Inference Group van CSAIL; Robert Hillman, Jarrad van Stan, en Daryush Mehta, het hele Massachusetts General Hospital's Center for Larynx Surgery and Voice Rehabilitation; en Marzyeh Ghassemi, een assistent-professor informatica en geneeskunde aan de Universiteit van Toronto.
Geforceerd leren van functies
Voor jaren, de MIT-onderzoekers hebben samengewerkt met het Center for Laryngeal Surgery and Voice Rehabilitation om gegevens van een sensor te ontwikkelen en te analyseren om het stemgebruik van het onderwerp tijdens alle wakkere uren te volgen. De sensor is een accelerometer met een knoop die aan de nek plakt en is verbonden met een smartphone. Terwijl de persoon praat, de smartphone verzamelt gegevens van de verplaatsingen in de versnellingsmeter.
In hun werk, de onderzoekers verzamelden een week aan deze gegevens - "tijdreeksgegevens" genoemd - van 104 proefpersonen, van wie de helft werd gediagnosticeerd met stembandknobbeltjes. Voor elke patiënt, er was ook een bijpassende controle, wat betekent een gezonde proefpersoon van vergelijkbare leeftijd, seks, bezigheid, en andere factoren.
traditioneel, experts zouden handmatig functies moeten identificeren die nuttig kunnen zijn voor een model om verschillende ziekten of aandoeningen te detecteren. Dat helpt een veelvoorkomend machine learning-probleem in de zorg te voorkomen:overfitting. Dat is wanneer, in opleiding, een model "onthoudt" de gegevens van de proefpersoon in plaats van alleen de klinisch relevante kenmerken te leren. Bij het testen, die modellen slagen er vaak niet in om vergelijkbare patronen te onderscheiden in voorheen ongeziene onderwerpen.
"In plaats van het leren van functies die klinisch significant zijn, een model ziet patronen en zegt:"Dit is Sarah, en ik weet dat Sarah gezond is, en dit is Pieter, die een stembandknobbel heeft." Dus, het is gewoon het onthouden van patronen van onderwerpen. Vervolgens, wanneer het gegevens van Andrew ziet, die een nieuw vocaal gebruikspatroon heeft, het kan niet achterhalen of die patronen overeenkomen met een classificatie, ' zegt Gonzalez Ortiz.
De belangrijkste uitdaging, dan, was het voorkomen van overfitting tijdens het automatiseren van handmatige feature-engineering. Daartoe, de onderzoekers dwongen het model om functies te leren zonder onderwerpinformatie. Voor hun taak, dat betekende het vastleggen van alle momenten waarop onderwerpen spreken en de intensiteit van hun stemmen.
Terwijl hun model door de gegevens van een onderwerp kruipt, het is geprogrammeerd om stemsegmenten te lokaliseren, die slechts ongeveer 10 procent van de gegevens uitmaken. Voor elk van deze stemvensters, het model berekent een spectrogram, een visuele weergave van het spectrum van frequenties die in de tijd variëren, die vaak wordt gebruikt voor spraakverwerkingstaken. De spectrogrammen worden vervolgens opgeslagen als grote matrices van duizenden waarden.
Maar die matrices zijn enorm en moeilijk te verwerken. Dus, een autoencoder - een neuraal netwerk dat is geoptimaliseerd om efficiënte gegevenscoderingen te genereren uit grote hoeveelheden gegevens - comprimeert eerst het spectrogram tot een codering van 30 waarden. Vervolgens decomprimeert het die codering in een afzonderlijk spectrogram.
In principe, het model moet ervoor zorgen dat het gedecomprimeerde spectrogram sterk lijkt op de originele spectrograminvoer. Daarbij, het is gedwongen om de gecomprimeerde representatie van elk spectrogramsegmentinvoer te leren over de volledige tijdreeksgegevens van elk onderwerp. De gecomprimeerde representaties zijn de functies die machine learning-modellen helpen trainen om voorspellingen te doen.
Normale en abnormale kenmerken in kaart brengen
In opleiding, het model leert deze kenmerken toe te wijzen aan 'patiënten' of 'controles'. Patiënten zullen meer stempatronen hebben dan controles. Bij het testen op voorheen onzichtbare onderwerpen, het model condenseert op dezelfde manier alle spectrogramsegmenten in een beperkte reeks functies. Vervolgens, de meerderheidsregels:als het onderwerp meestal abnormale stemsegmenten heeft, ze zijn geclassificeerd als patiënten; als ze meestal normale hebben, ze zijn geclassificeerd als controles.
Bij experimenten, het model presteerde net zo nauwkeurig als state-of-the-art modellen die handmatige feature-engineering vereisen. belangrijk, het model van de onderzoekers presteerde nauwkeurig in zowel training als testen, wat aangeeft dat het klinisch relevante patronen uit de gegevens leert, geen vakspecifieke informatie.
Volgende, de onderzoekers willen volgen hoe verschillende behandelingen, zoals chirurgie en stemtherapie, het stemgedrag beïnvloeden. Als het gedrag van patiënten na verloop van tijd van abnormaal naar normaal verandert, ze zijn hoogstwaarschijnlijk aan het verbeteren. Ze hopen ook een vergelijkbare techniek te gebruiken voor elektrocardiogramgegevens, die wordt gebruikt om de spierfuncties van het hart te volgen.
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Gist is een eencellig organisme dat zich ongeslachtelijk reproduceert en al duizenden jaren wordt gebruikt bij het bakken en brouwen. Er zijn minstens 1500 soorten gist, allemaal technisch leve
Wetenschap © https://nl.scienceaq.com