science >> Wetenschap >  >> Elektronica

Diepgaande leertechnieken gebruiken om potentiële menselijke activiteiten in video's te lokaliseren

De 'YoTube'-detector helpt om AI meer mensgericht te maken. Krediet:iStock

Als een politieagent zijn hand begint op te steken in het verkeer, menselijke chauffeurs beseffen dat de officier op het punt staat om hen te laten stoppen. Maar computers vinden het moeilijker om de volgende waarschijnlijke acties van mensen te bepalen op basis van hun huidige gedrag. Nutsvoorzieningen, een team van A*STAR-onderzoekers en collega's heeft een detector ontwikkeld die met succes kan bepalen waar menselijke acties zullen plaatsvinden in video's, in bijna realtime.

Beeldanalysetechnologie zal beter moeten worden in het begrijpen van menselijke bedoelingen als het in een breed scala aan toepassingen kan worden gebruikt, zegt Hongyuan Zhu, een computerwetenschapper bij A*STAR's Institute for Infocomm Research, die de studie leidde. Auto's zonder bestuurder moeten politieagenten kunnen detecteren en hun acties snel en nauwkeurig kunnen interpreteren, voor veilig rijden, hij legt uit. Autonome systemen kunnen ook worden getraind om verdachte activiteiten zoals vechten, diefstal, of het laten vallen van gevaarlijke voorwerpen, en waarschuw beveiligingsmedewerkers.

Computers zijn al buitengewoon goed in het detecteren van objecten in statische afbeeldingen, dankzij deep learning-technieken, die kunstmatige neurale netwerken gebruiken om complexe beeldinformatie te verwerken. Maar video's met bewegende objecten zijn uitdagender. "Het begrijpen van menselijke acties in video's is een noodzakelijke stap om slimmere en vriendelijkere machines te bouwen, " zegt Zhu.

Eerdere methoden voor het lokaliseren van mogelijke menselijke acties in video's maakten geen gebruik van diepgaande leerkaders en waren traag en foutgevoelig, zegt Zhu. Om dit te overwinnen, de YoTube-detector van het team combineert twee soorten neurale netwerken parallel:een statisch neuraal netwerk, die al heeft bewezen nauwkeurig te zijn bij het verwerken van stilstaande beelden, en een terugkerend neuraal netwerk, meestal gebruikt voor het verwerken van veranderende gegevens, voor spraakherkenning. "Onze methode is de eerste die detectie en tracking samenbrengt in één deep learning-pijplijn, " zegt Zhu.

Het team heeft YoTube getest op meer dan 3, 000 video's die routinematig worden gebruikt in experimenten met computervisie. Ze melden dat het beter presteerde dan geavanceerde detectoren bij het correct uitkiezen van mogelijke menselijke acties met ongeveer 20 procent voor video's die algemene dagelijkse activiteiten tonen en ongeveer 6 procent voor sportvideo's. De detector maakt af en toe fouten als de mensen in de video klein zijn, of als er veel mensen op de achtergrond zijn. Niettemin, Zhu zegt, "We hebben aangetoond dat we de meeste potentiële menselijke actieregio's op een bijna realtime manier kunnen detecteren."