science >> Wetenschap >  >> Elektronica

Computers helpen om 3D-structuren te zien

Krediet:CC0 Publiek Domein

Als je structuren om je heen kunt herkennen terwijl je door een stadsstraat loopt, je hebt je ogen te danken. Mensen kunnen automatisch 3D-structuren in de wereld waarnemen door lijnen te identificeren, vormen, symmetrieën en de patronen en relaties daartussen in zaken als gebouwen, trottoirs en alledaagse voorwerpen. Maar kan een computer worden geleerd om hetzelfde te doen?

Zihan Zhou, assistent-professor informatiewetenschappen en technologie aan Penn State, gaat die vraag onderzoeken dankzij een recente subsidie ​​van de National Science Foundation.

"We willen dat een computer de 3D-ruimte ziet zoals mensen dat doen, "zei Zhou. "Deze specifieke prijs en dit project gaat over structuurperceptie, die grotendeels is genegeerd in 3D-visie. Dit is iets wat nog niet eerder is gedaan."

Structuurperceptie is het vermogen van de ogen van een mens om gegevens of patronen te ordenen en op bepaalde manieren te groeperen. Bijvoorbeeld, een mens kan naar een lijntekening van een gebouw kijken en deuren visualiseren, ramen en muren.

"Er zijn veel soorten van deze relaties in de echte wereld, en mensen maken gebruik van die relaties om de 3D-ruimte te voelen, " zei hij. "Menselijke ogen kunnen dit soort dingen gemakkelijk waarnemen. De vraag is nu:kan de computer deze dingen waarnemen zoals een mens dat doet?"

Om die vraag te beantwoorden, Zhou is van plan een nieuw gegevensgestuurd raamwerk te ontwikkelen voor het ontdekken van structuren, gebruikmakend van de beschikbaarheid van enorme visuele gegevens en recente ontwikkelingen in machine learning-technieken.

Deze technieken kunnen vervolgens worden toegepast op een breed spectrum van real-world computervisieproblemen, inclusief 3D-modellering van stedelijke omgevingen, virtuele en augmented reality, en autonoom rijden. Het onderzoek kan ook van invloed zijn op cognitieve wetenschappen, door nieuwe computationele mechanismen voor beeldbegrip te suggereren; en mens-robot interactie, door robots te laten redeneren in termen van geometrische vormen, natuurkunde en dynamiek.

"Als een robot iets herkent als een specifiek type structuur, dan weet het hoe ermee om te gaan, "zei Zhou. "Bijvoorbeeld, als een robot een constructie met een platte bovenkant kan herkennen, het zou weten dat het er een voorwerp als een kopje op zou kunnen zetten."

Aanvullend, het raamwerk kan van invloed zijn op het werk van architecten, ontwerpers en ingenieurs.

"Als je aan die architecten denkt, ze werken elke dag met 3D-modellen, "zei Zhou. "Als ze iets bouwen, ze maken eerst lijntekeningen. Dus als een computer deuren en ramen in de tekeningen kan begrijpen, het zou zeer nuttig zijn voor architectonisch ontwerp en engineering."

Zhou raakte geïnteresseerd in dit onderwerp toen hij afstudeerde bij Adobe. Tijdens zijn stage hij bestudeerde de relatie tussen camerabeweging en de omgeving, die de filmindustrie zou kunnen helpen om scènes te analyseren.

"Ik heb geprobeerd om bepaalde structuren uit de video's en de volgorde van de camera te halen, " zei hij. "Op dat moment was het om het cameratraject voor de filmindustrie te analyseren, maar later realiseerden we ons dat het meer systematisch was."

Nutsvoorzieningen, bij Penn State, Zhou hoopt het interdisciplinaire netwerk te gebruiken om zijn werk vooruit te helpen.

"IST heeft mensen die op verschillende gebieden werken, en velen van hen kunnen worden beïnvloed door dit soort werk, " zei hij. "Dit heeft veel belangstelling gewekt op verschillende gebieden. We willen dit verder uitbreiden en toepassingen vinden om dit meer samen te laten werken."

"Ongeveer 70 procent van de informatie die we verkrijgen is afkomstig van visuele signalen van onze ogen, " concludeerde hij. "Het is duidelijk dat we gebieden hebben zoals natuurlijke taalverwerking om spraak en geluiden te helpen begrijpen, maar de menselijke visie is de overheersende factor in hoe we deze wereld begrijpen. Om de computer de wereld te laten zien zoals wij dat doen, is een van de meest opwindende gebieden in kunstmatige intelligentie en informatica."