science >> Wetenschap >  >> Fysica

Objectclassificatie via een detector van één pixel

UCLA-onderzoekers hebben een machinevisiesysteem met één pixel gemaakt dat de ruimtelijke informatie van objecten in het lichtspectrum kan coderen om invoerobjecten optisch te classificeren en hun afbeeldingen te reconstrueren met behulp van een detector met één pixel. Krediet:Ozcan Lab @ UCLA.

Machine vision-systemen hebben veel toepassingen, inclusief zelfrijdende auto's, intelligente productie, robotchirurgie en biomedische beeldvorming, onder vele anderen. De meeste van deze machine vision-systemen maken gebruik van camera's op basis van lenzen, en nadat een afbeelding of video is vastgelegd, meestal met een paar megapixels per frame, een digitale processor wordt gebruikt om machine learning-taken uit te voeren, zoals objectclassificatie en scènesegmentatie. Een dergelijke traditionele machine vision-architectuur heeft verschillende nadelen. Eerst, de grote hoeveelheid digitale informatie maakt het moeilijk om op hoge snelheid beeld/video-analyse te maken, vooral met behulp van mobiele en batterijgevoede apparaten. In aanvulling, de vastgelegde beelden bevatten meestal overbodige informatie, die de digitale processor overweldigt met een hoge rekenbelasting, het creëren van inefficiënties in termen van stroom- en geheugenvereisten. Bovendien, voorbij de zichtbare golflengten van licht, het fabriceren van beeldsensoren met een hoog aantal pixels, zoals wat we in onze mobiele telefooncamera's hebben, is uitdagend en duur, die de toepassingen van standaard machine vision-methoden bij langere golflengten beperkt, zoals terahertz deel van het spectrum.

UCLA-onderzoekers hebben een nieuwe, Single-pixel machine vision framework dat een oplossing biedt om de tekortkomingen en inefficiënties van traditionele machine vision-systemen te verminderen. Ze maakten gebruik van deep learning om optische netwerken te ontwerpen die zijn gemaakt door opeenvolgende diffractieve oppervlakken om berekeningen en statistische gevolgtrekkingen uit te voeren terwijl het ingangslicht door deze speciaal ontworpen en 3D-gefabriceerde lagen gaat. In tegenstelling tot gewone camera's met lenzen, deze diffractieve optische netwerken zijn ontworpen om het binnenkomende licht op geselecteerde golflengten te verwerken met als doel de ruimtelijke kenmerken van een invoerobject te extraheren en te coderen in het spectrum van het afgebogen licht, die wordt verzameld door een detector van één pixel. Verschillende soorten objecten of gegevensklassen worden toegewezen aan verschillende golflengten van licht. De invoerobjecten worden automatisch optisch geclassificeerd, alleen het uitgangsspectrum gebruiken dat door een enkele pixel wordt gedetecteerd, het omzeilen van de noodzaak van een beeldsensor-array of een digitale processor. Deze volledig optische inferentie en machine vision-mogelijkheid via een detector van één pixel die is gekoppeld aan een diffractief netwerk, biedt transformatieve voordelen in termen van framesnelheid, geheugenbehoefte en energie-efficiëntie, die vooral belangrijk zijn voor mobiele computertoepassingen.

In een studie gepubliceerd in wetenschappelijke vooruitgang , UCLA-onderzoekers hebben experimenteel het succes van hun raamwerk aangetoond bij terahertz-golflengten door de afbeeldingen van handgeschreven cijfers te classificeren met behulp van een enkele pixeldetector en 3D-geprinte diffractieve lagen. De optische classificatie van de invoerobjecten (handgeschreven cijfers) werd uitgevoerd op basis van het maximale signaal tussen de tien golflengten die waren, een voor een, toegewezen aan verschillende handgeschreven cijfers (0 tot en met 9). Ondanks het gebruik van een detector met één pixel, een optische classificatienauwkeurigheid van meer dan 96% werd bereikt. Een experimentele proof-of-concept-studie met 3D-geprinte diffractieve lagen toonde een nauwe overeenkomst met de numerieke simulaties, het demonstreren van de doeltreffendheid van het single-pixel machine vision framework voor het bouwen van low-latency en resource-efficiënte machine learning-systemen. Naast objectclassificatie, de onderzoekers verbonden hetzelfde diffractieve optische netwerk met één pixel ook met een eenvoudig, ondiep elektronisch neuraal netwerk, om de afbeeldingen van de invoerobjecten snel te reconstrueren op basis van alleen het gedetecteerde vermogen op tien verschillende golflengten, het demonstreren van taakspecifieke beelddecompressie.

Dit raamwerk voor objectclassificatie en beeldreconstructie met één pixel zou de weg kunnen banen voor de ontwikkeling van nieuwe machine vision-systemen die spectrale codering van objectinformatie gebruiken om een ​​specifieke inferentietaak op een hulpbronnenefficiënte manier uit te voeren, met lage latentie, laag vermogen en laag aantal pixels. Dit nieuwe raamwerk kan ook worden uitgebreid tot verschillende spectrale domeinmeetsystemen, zoals optische coherentietomografie, Infraroodspectroscopie en anderen, om fundamenteel nieuwe 3D-beeldvormings- en detectiemodaliteiten te creëren, geïntegreerd met diffractieve netwerkgebaseerde codering van spectrale en ruimtelijke informatie.