Wetenschap
Een nieuw model dat is ontwikkeld aan het MIT, herstelt waardevolle gegevens die verloren zijn gegaan van afbeeldingen en video die zijn "ingestort" in lagere dimensies. Het kan, bijvoorbeeld, maak video's van bewegingsonscherpte beelden of van camera's die de bewegingen van mensen om hoeken vastleggen als vage eendimensionale lijnen. Krediet:Massachusetts Institute of Technology
MIT-onderzoekers hebben een model ontwikkeld dat waardevolle gegevens herstelt die verloren zijn gegaan van afbeeldingen en video die zijn "ingestort" in lagere dimensies.
Het model kan worden gebruikt om video na te bootsen van bewegende wazige beelden, of van nieuwe soorten camera's die de bewegingen van een persoon om hoeken vastleggen, maar alleen als vage eendimensionale lijnen. Hoewel er meer tests nodig zijn, de onderzoekers denken dat deze aanpak ooit zou kunnen worden gebruikt om 2D-medische beelden om te zetten in meer informatieve, maar duurdere, 3D-lichaamsscans, die medische beeldvorming in armere landen ten goede zou kunnen komen.
"In al deze gevallen de visuele gegevens hebben één dimensie - in tijd of ruimte - die volledig verloren is gegaan, " zegt Guha Balakrishnan, een postdoc in het Computer Science and Artificial Intelligence Laboratory (CSAIL) en eerste auteur van een paper waarin het model wordt beschreven, die volgende week wordt gepresenteerd op de internationale conferentie over computervisie. "Als we die verloren dimensie terugkrijgen, het kan veel belangrijke toepassingen hebben."
Vastgelegde visuele gegevens vouwen vaak gegevens van meerdere dimensies van tijd en ruimte samen in één of twee dimensies, 'projecties' genoemd. Röntgenstralen, bijvoorbeeld, driedimensionale gegevens over anatomische structuren samenvouwen tot een plat beeld. Of, overweeg een opname met lange belichtingstijd van sterren die door de lucht bewegen:de sterren, wiens positie in de loop van de tijd verandert, verschijnen als vage strepen in de foto.
Hetzelfde, "hoekcamera's, "Onlangs uitgevonden aan het MIT, bewegende mensen om hoeken detecteren. Deze kunnen nuttig zijn voor, zeggen, brandweerlieden die mensen vinden in brandende gebouwen. Maar de camera's zijn niet bepaald gebruiksvriendelijk. Momenteel produceren ze alleen projecties die op wazige, kronkelende lijnen, overeenkomend met het traject en de snelheid van een persoon.
De onderzoekers vonden een "visueel deprojectie" -model uit dat een neuraal netwerk gebruikt om patronen te "leren" die laagdimensionale projecties afstemmen op hun originele hoogdimensionale afbeeldingen en video's. Gezien nieuwe prognoses, het model gebruikt wat het heeft geleerd om alle originele gegevens van een projectie opnieuw te creëren.
Bij experimenten, het model synthetiseerde nauwkeurige videoframes die mensen laten zien die lopen, door informatie te extraheren uit enkele, eendimensionale lijnen vergelijkbaar met die van hoekcamera's. Het model herstelde ook videoframes van enkele, bewegingswazige projecties van cijfers die over een scherm bewegen, uit de populaire Moving MNIST-dataset.
Deelnemen aan Balakrishnan op het papier zijn:Amy Zhao, een afgestudeerde student bij de afdeling Elektrotechniek en Informatica (EECS) en CSAIL; EECS-hoogleraren John Guttag, Fredo Durand, en William T. Freeman; en Adrian Dalca, een faculteitslid radiologie aan de Harvard Medical School.
Aanwijzingen in pixels
Het werk begon als een "cool inversieprobleem" om beweging na te bootsen die bewegingsonscherpte veroorzaakt in fotografie met lange belichtingstijden, zegt Balakrishnan. In de pixels van een projectie zitten enkele aanwijzingen over de hoogdimensionale bron.
Digitale camera's die opnamen met een lange belichtingstijd maken, bijvoorbeeld, zal in principe fotonen aggregeren gedurende een bepaalde periode op elke pixel. Bij het vastleggen van de beweging van een object in de tijd, de camera neemt de gemiddelde waarde van de bewegingsvastleggende pixels. Vervolgens, het past die gemiddelde waarden toe op overeenkomstige hoogten en breedtes van een stilstaand beeld, die de kenmerkende wazige strepen van het traject van het object creëert. Door enkele variaties in pixelintensiteit te berekenen, de beweging kan theoretisch worden nagebootst.
Zoals de onderzoekers beseften, dat probleem speelt op veel gebieden:röntgenstralen, bijvoorbeeld, hoogte vastleggen, breedte, en diepte-informatie van anatomische structuren, maar ze gebruiken een vergelijkbare pixel-middelingstechniek om diepte in een 2D-beeld samen te vouwen. Hoekcamera's - uitgevonden in 2017 door Freeman, Durand, en andere onderzoekers - vangen gereflecteerde lichtsignalen rond een verborgen scène die tweedimensionale informatie bevatten over de afstand van een persoon tot muren en objecten. De pixel-middelingstechniek vouwt die gegevens vervolgens samen tot een eendimensionale video - in feite metingen van verschillende lengtes in de tijd in een enkele lijn.
De onderzoekers bouwden een algemeen model, gebaseerd op een convolutioneel neuraal netwerk (CNN) - een machine learning-model dat een krachtpatser is geworden voor beeldverwerkingstaken - dat aanwijzingen vastlegt over elke verloren dimensie in gemiddelde pixels.
Signalen synthetiseren
In opleiding, de onderzoekers voedden de CNN duizenden paren projecties en hun hoogdimensionale bronnen, 'signalen' genoemd. Het CNN leert pixelpatronen in de projecties die overeenkomen met die in de signalen. Het aandrijven van de CNN is een raamwerk dat een "variationele autoencoder, " die evalueert hoe goed de CNN-uitvoer overeenkomt met de invoer over een bepaalde statistische waarschijnlijkheid. het model leert een "ruimte" van alle mogelijke signalen die een bepaalde projectie hadden kunnen produceren. Dit creëert, in essentie, een soort blauwdruk om van een projectie naar alle mogelijke overeenkomende signalen te gaan.
Wanneer eerder ongeziene projecties worden getoond, het model noteert de pixelpatronen en volgt de blauwdrukken naar alle mogelijke signalen die die projectie hadden kunnen produceren. Vervolgens, het synthetiseert nieuwe beelden die alle gegevens van de projectie en alle gegevens van het signaal combineren. Dit bootst het hoogdimensionale signaal na.
Voor een experiment, de onderzoekers verzamelden een dataset van 35 video's van 30 mensen die in een bepaald gebied liepen. Ze hebben alle frames samengevouwen tot projecties die ze hebben gebruikt om het model te trainen en te testen. Uit een set van zes ongeziene projecties, het model reconstrueerde nauwkeurig 24 frames van het looppatroon van de persoon, tot de positie van hun benen en de grootte van de persoon terwijl ze naar of weg van de camera liepen. Het model lijkt te leren, bijvoorbeeld, dat pixels die in de loop van de tijd donkerder en breder worden, waarschijnlijk overeenkomen met een persoon die dichter bij de camera loopt.
"Het is bijna magisch dat we dit detail kunnen achterhalen, ' zegt Balakrishnan.
De onderzoekers testten hun model niet op medische beelden. Maar ze werken nu samen met collega's van Cornell University om 3D-anatomische informatie te herstellen van 2D-medische beelden, zoals röntgenstralen, zonder extra kosten, wat meer gedetailleerde medische beeldvorming in armere landen mogelijk maakt. Artsen geven meestal de voorkeur aan 3D-scans, zoals die vastgelegd met CT-scans, omdat ze veel nuttigere medische informatie bevatten. Maar CT-scans zijn over het algemeen moeilijk en duur om te verkrijgen.
"Als we röntgenfoto's kunnen omzetten in CT-scans, dat zou enigszins spelveranderend zijn, "zegt Balakrishnan. "Je kunt gewoon een röntgenfoto maken en die door ons algoritme duwen en alle verloren informatie zien."
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Elektroforese is een proces dat door wetenschappers wordt gebruikt om te helpen begrijpen welke fragmenten van DNA ze onderzoeken. Dit kan helpen bij het identificeren van verschillend DNA voor strafzaken, in diagnostische g
Wetenschap © https://nl.scienceaq.com