Wetenschap
Het model is in staat om functies te leren die de semantische inhoud van de afbeeldingen goed coderen. Gegeven een afbeeldingsquery (afbeelding links), het model is in staat afbeeldingen op te halen die semantisch vergelijkbaar zijn (hetzelfde type object weergeven), hoewel ze visueel verschillend kunnen zijn (verschillende kleuren, achtergronden of composities). Krediet:arXiv:1807.02110 [cs.CV]
Onderzoekers van de Universitat Autonoma de Barcelona, Carnegie Mellon University en International Institute of Information Technology, Haiderabad, Indië, een techniek hebben ontwikkeld waarmee deep learning-algoritmen de visuele kenmerken van afbeeldingen op een zelf-gecontroleerde manier kunnen leren, zonder de noodzaak van annotaties door menselijke onderzoekers.
Om opmerkelijke resultaten te behalen bij computervisietaken, deep learning-algoritmen moeten worden getraind op grootschalige geannoteerde datasets die uitgebreide informatie over elke afbeelding bevatten. Echter, het verzamelen en handmatig annoteren van deze afbeeldingen kost enorm veel tijd, bronnen, en menselijke inspanning.
"We willen computers de mogelijkheid geven om tekstuele informatie in elk type afbeelding in de echte wereld te lezen en te begrijpen, " zegt Dimosthenis Karatzas, een van de onderzoekers die het onderzoek heeft uitgevoerd, in een interview met Tech Xplore .
Mensen gebruiken tekstuele informatie om alle situaties die hen worden voorgelegd te interpreteren, evenals om te beschrijven wat er om hen heen of in een bepaald beeld gebeurt. Onderzoekers proberen nu vergelijkbare mogelijkheden aan machines te geven, omdat dit de hoeveelheid middelen die wordt besteed aan het annoteren van grote datasets enorm zou verminderen.
In hun studie hebben Karatzas en zijn collega's ontwierpen computationele modellen die tekstuele informatie over afbeeldingen verbinden met de visuele informatie die ze bevatten, met behulp van gegevens van Wikipedia of andere online platforms. Vervolgens gebruikten ze deze modellen om diepgaande algoritmen te trainen in het selecteren van goede visuele kenmerken die afbeeldingen semantisch beschrijven.
Net als in andere modellen op basis van convolutionele neurale netwerken (CNN's), functies worden end-to-end geleerd, met verschillende lagen die automatisch leren focussen op verschillende dingen, variërend van details op pixelniveau in de eerste lagen tot meer abstracte kenmerken in de laatste.
Het model ontwikkeld door Karatzas en zijn collega's, echter, vereist geen specifieke annotaties voor elke afbeelding. In plaats daarvan, de tekstuele context waarin de afbeelding wordt gevonden (bijvoorbeeld een Wikipedia-artikel) fungeert als toezichtsignaal.
Met andere woorden, de nieuwe techniek die door dit team van onderzoekers is ontwikkeld, biedt een alternatief voor volledig onbewaakte algoritmen, die niet-visuele elementen gebruikt in samenhang met de afbeeldingen, fungeren als een bron voor zelf-gesuperviseerde training.
"Dit blijkt een zeer efficiënte manier te zijn om te leren hoe je afbeeldingen op een computer kunt weergeven, zonder dat er expliciete annotaties nodig zijn - labels over de inhoud van de afbeeldingen - die veel tijd en handmatige inspanning kosten om te genereren, " legt Karatzas uit. "Deze nieuwe beeldrepresentaties, op een zelfgestuurde manier geleerd, discriminerend genoeg zijn om te worden gebruikt in een reeks typische computervisietaken, zoals beeldclassificatie en objectdetectie."
De door de onderzoekers ontwikkelde methodologie maakt het gebruik van tekst mogelijk als het toezichtsignaal om nuttige beeldkenmerken te leren. Dit zou nieuwe mogelijkheden kunnen bieden voor diepgaand leren, waardoor algoritmen beeldkenmerken van goede kwaliteit kunnen leren zonder dat annotaties nodig zijn, simpelweg door tekstuele en visuele bronnen te analyseren die direct online beschikbaar zijn.
Door hun algoritmen te trainen met afbeeldingen van internet, de onderzoekers benadrukten de waarde van inhoud die direct online beschikbaar is.
"Onze studie toonde aan dat het web kan worden misbruikt als een pool van gegevens met veel ruis om bruikbare representaties over beeldinhoud te leren, " zegt Karatzas. "We zijn niet de eerste, noch de enigen die in deze richting wezen, maar ons werk heeft een specifieke manier aangetoond om dit te doen, gebruikmakend van Wikipedia-artikelen als de gegevens om van te leren."
In toekomstige studies, Karatzas en zijn collega's zullen proberen de beste manieren te vinden om in afbeeldingen ingebedde tekstuele informatie te gebruiken om automatisch vragen over beeldinhoud te beschrijven en te beantwoorden.
"We zullen doorgaan met ons werk aan de gezamenlijke inbedding van tekstuele en visuele informatie, op zoek zijn naar nieuwe manieren om semantisch opvragen uit te voeren door te tikken op luidruchtige informatie die beschikbaar is op het web en sociale media, ", voegt Karatzas toe.
© 2018 Tech Xplore
Wetenschap © https://nl.scienceaq.com