Wetenschap
Voorbeeldvoorspellingen van ColorUNet op de validatieset, voor saaie invoerbeelden. De uitvoerafbeeldingen van ColorUNet zijn kleurrijker dan de grondwaarheid (originele) afbeeldingen. Het onderste voorbeeld is een oude foto met versleten tonen. Krediet:Billaut, De Rochemonteix en Thibault.
Een team van onderzoekers van Stanford University heeft onlangs een CNN-classificatiemethode ontwikkeld om grijswaardenafbeeldingen in te kleuren. Het instrument dat ze bedachten, genaamd ColorUNet, haalt inspiratie uit U-Net, een volledig convolutioneel netwerk voor beeldsegmentatie.
"Als onderdeel van de Computer Vision-les van Stanford, we hebben een aantal maanden aan dit project gewerkt, "Vincent Billaut, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Ons doel was om ultramoderne resultaten te reproduceren met behulp van een lichtgewicht model, in plaats van bestaande modellen te verbeteren door de omvang van de trainingsset of hun computationele complexiteit te vergroten, een veel voorkomende benadering bij CV-problemen. We wilden dat onze resultaten eenvoudig te evalueren en visueel aantrekkelijk waren, want naast nuttige en impactvolle toepassingen, CV gaat ook over toffe dingen."
Billaut en zijn collega's besloten om de taak van het automatisch inkleuren van grijswaardenafbeeldingen te benaderen vanuit de invalshoek van classificatie, werken met een eindige set van kleurmogelijkheden. Hun model volgde een verlies- en voorspellingsfunctie, voorkeur voor kleurrijke afbeeldingen boven realistische.
"In plaats van te proberen de kleuren direct te voorspellen via een regressietaak, we splitsen alle kleuren in bakken, met een classificatietaak, "Marc Thibault, een andere onderzoeker die bij het onderzoek betrokken was, vertelde TechXplore. "Door het probleem te formuleren als een classificatietaak, hebben we betere controle over hoe kleurrijk we willen dat onze output eruitziet, door te finetunen hoe we een kleur voorspellen uit de output van het netwerk."
De architectuur van ColorUNet. Structuur van de ColorUNet. De onderzoekers gebruiken 3 soorten cellen:DownConv-cellen die 2 gestapelde convolutionele lagen gebruiken om een groot waarnemingsveld te hebben en een maxpooling om het beeld te downsamplen, UpConv-cellen die 1 ConvTranspose-laag gebruiken om de afbeelding te upsamplen en vervolgens 2 convolutionele lagen, en een uitvoercel die een vereenvoudigde versie is van de UpConv-cel. Krediet:Billaut, De Rochemonteix en Thibault.
De onderzoekers trainden hun model op subsets van de SUN- en ImageNet-datasets, die afbeeldingen van landschappen bevatten. Dankzij de neurale netwerkarchitectuur die ze ontwikkelden, kon hun deep learning-algoritme zowel lokale als globale informatie uit elk grijswaardenbeeld halen.
"Het algoritme kan dan beslissen over de kleur van een regio op basis van zijn eigen aspect, evenals op de context eromheen, Thibault zei. "In het algemeen, het is van cruciaal belang dat AI-technieken voor real-life besluitvorming zowel lokaal nauwkeurige onderwerpidentificatie als een begrip van de bredere context benutten."
Een van de belangrijkste doelen van het onderzoek was het ontwikkelen van een lichtgewicht architectuur die schaalbaar was, maar presteerde ook zo goed als state-of-the-art modellen in kleurtaken. Om dit te behalen, de onderzoekers beperkten de taak tot afbeeldingen van natuurlijke landschappen.
Open-source MRI-beeld dat in de toekomst door ColorUNet kan worden verwerkt. Krediet:Billaut, De Rochemonteix en Thibault.
"Het belangrijkste is, we gebruikten een U-Net-architectuur om de prestaties te verbeteren en de complexiteit van het model te verminderen, "Matthieu de Rochemonteix, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "ColorUnet benadert state-of-the-art prestaties op de geselecteerde subtaak. De architectuur zorgt voor snellere en stabielere training, zonder afbreuk te doen aan de diepgang en representatieve kracht van het model."
Bij evaluatie op foto's van landschappen, ColorUNet behaalde veelbelovende resultaten, met data-augmentatie die de prestaties en robuustheid van het model aanzienlijk verbetert. De onderzoekers pasten ook model toe op video-inkleuring, een manier voorstellen om kleurvoorspellingen over frames af te vlakken zonder een terugkerend netwerk te hoeven trainen voor sequentiële invoer.
"De belangrijkste bijdrage van deze techniek is het vermogen van een algoritme om te begrijpen wat er op lokale schaal in een afbeelding gebeurt, door het de context van het hele beeld te geven, Thibault zei. "Terwijl we zijn efficiëntie in beeldkleuring toonden, we werken ook aan andere toepassingen, vooral op medisch gebied. Binnen het Gevaert Lab in Stanford, deze methode hebben we toegepast op tumordetectie bij glioom (hersenkanker) patiënten op basis van MRI-scans. Onderzoek floreert op dit gebied, met steeds meer CV-technieken die worden toegepast op medische beeldvorming."
© 2018 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com