Wetenschap
Factorisatie van blind lichttransport met behulp van onze methode. De eerste drie sequenties worden op een muur achter de camera geprojecteerd. De Lego-reeks wordt live uitgevoerd voor de verlichte muur. Krediet:arXiv:1912.02314 [cs.CV]
Een team van onderzoekers toonde aan dat ze een video van beweging in een verborgen scène kunnen herstellen door veranderingen in verlichting in een nabijgelegen zichtbaar gebied te observeren. Ze keken naar het indirecte effect op schaduwen en schaduwen in een waargenomen gebied.
Vertaling:Spelen met schaduwen voor informatie kan zeer de moeite waard zijn. Het team van onderzoekers creëerde een nieuw AI-algoritme dat camera's kan helpen dingen buiten de camera te "zien" door alleen bewegende schaduwen te gebruiken.
Hun methode kan een verborgen video reconstrueren op basis van de schaduwen die het werpt. Het resultaat is dat je kunt inschatten hoe de verborgen video eruitziet.
Hillary Grigonis in Digitale trends schreven over hun onderzoek met een interessante vergelijking, zoals 'schaduwpoppen in omgekeerde volgorde lezen'. Hoezo? "...de computer ziet de schaduw in de vorm van een konijn en kan dan een schatting maken van het object dat die schaduw heeft gecreëerd. De computer weet niet wat dat object is, maar kan een ruwe schets van de vorm geven."
Beginnen, ze waren geïnteresseerd in het oplossen van het probleem van activiteiten die buiten hun gezichtsveld plaatsvinden.
Meer informatie vindt u op de projectwebpagina van MIT CSAIL (Computer Science and Artificial Intelligence Laboratory) op compmirrors.csail.mit.edu en op GitHub.
De auteurs overwogen de waarde van hun onderzoek:"We hebben aangetoond dat rommelige scènes rekenkundig kunnen worden omgezet in spiegels met een lage resolutie zonder voorafgaande kalibratie." Met slechts een enkele invoervideo van de zichtbare scène, ze konden een latente video van de verborgen scène herstellen, evenals een lichttransportmatrix.
"Wij vinden het opmerkelijk, " ze zeiden, "dat alleen het vragen om latente factoren die gemakkelijk kunnen worden uitgedrukt door een CNN [convolutioneel neuraal netwerk] voldoende is om ons probleem op te lossen, waardoor we uitdagingen zoals de schatting van de geometrie en reflectie-eigenschappen van de scène volledig kunnen omzeilen."
Geplaatst op 6 december, hun video is getiteld "Computational Mirrors:Revealing Hidden Video." Michael Zhang in PetaPixel vatte samen wat ze deden in de video. "Wetenschappers van MIT's CSAIL vertellen hoe ze een camera op een stapel objecten richtten en vervolgens de schaduwen filmden die op die objecten werden gecreëerd door een persoon die zich buiten de camera bewoog."
De video-onderschriften wezen er verder op dat hun methode ook het silhouet van een live-action performance kan reconstrueren vanuit de schaduwen. Resultaten dekken in ieder geval de kleur en beweging. Zhang beoordeelde wat ze konden doen. "De AI analyseerde de schaduwen en kon een wazige maar opvallend nauwkeurige video reconstrueren van wat de persoon aan het doen was met hun [sic] handen."
Potentiële toepassingen? Videonotities:"Met verdere verfijning, met deze methode kunnen zelfrijdende auto's verborgen obstakels detecteren.
Rachel Gordon, MIT CSAIL, sprak over andere mogelijkheden:ouderenzorgcentra die waken over de veiligheid van hun bewoners; opsporings- en reddingsteams die hiervan gebruik maken bij het navigeren door gevaarlijke en belemmerde gebieden.
Globaal genomen, de onderzoekers hebben een interessant pad bewandeld om informatie buiten het gezichtsveld te begrijpen, maar anderen van het MIT waren er in zekere zin ook bij, gedaan. Scènes buiten een normale gezichtslijn waren zeven jaar geleden de focus van MIT-onderzoekers, zei Gordon van CSAIL, en vervolgens gebruikten ze lasers om 3D-beelden te maken.
In de laatste onderzoeksinspanning, echter, het team wilde zien wat ze konden bereiken zonder speciale apparatuur. Gordon citeerde hierover de hoofdonderzoeker. Miika Aittala, wie zei, "Je kunt heel wat bereiken met niet-zichtbare beeldvormingsapparatuur zoals lasers, maar in onze benadering heb je alleen toegang tot het licht dat van nature de camera bereikt, en je probeert het meeste te halen uit de schaarse informatie die erin staat."
Denk ontcijferen. De uitdaging was om deze lichtsignalen te ontcijferen en te begrijpen. Denk aan algoritme. Gordon schreef dat het team zich concentreerde op het doorbreken van de dubbelzinnigheid door algoritmisch te specificeren dat ze een 'scrambling'-patroon wilden dat overeenkomt met plausibele real-world schaduwen en schaduwen, om de verborgen video bloot te leggen die eruitziet alsof het randen en objecten heeft die coherent bewegen.
Ze legde uit dat hun algoritme twee neurale netwerken tegelijkertijd traint. "Eén netwerk produceert het scramblingpatroon, en de andere schat de verborgen video. De netwerken worden beloond wanneer de combinatie van deze twee factoren de video reproduceert die is opgenomen vanuit de rommel, hen ertoe aanzetten om de waarnemingen uit te leggen met plausibele verborgen gegevens."
Hun paper waarin hun werk wordt besproken, heet "Computational Mirrors:Blind Inverse Light Transport by Deep Matrix Factorization, " en het staat op arXiv. Auteurs zijn Miika Aittala, Praful Sharma, Lucas Murmann, Adam Yedidia, Gregory Wornell, William T. Freeman en Frédo Durand.
Rapporten zeiden dat ze hun werk zouden presenteren op de conferentie over neurale informatieverwerkingssystemen (NeurIPS 2019) in Vancouver, Brits-Columbia.
© 2019 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com