Science >> Wetenschap >  >> Elektronica

Onderzoekers leren computers hoe ze afbeeldingen een naam kunnen geven door te 'denken'

Methode:

- Voorverwerking:

1. Afbeeldingen worden verkleind naar een vaste resolutie.

2. Kleurnormalisatie wordt toegepast om verlichtingsvariaties te verwijderen.

- Functie-extractie:

1. Diepe convolutionele neurale netwerken (CNN's) worden gebruikt om krachtige en onderscheidende kenmerken uit beelden te halen.

2. De CNN-architectuur is getraind op een grote dataset van afbeeldingen met bijbehorende tekstlabels.

- Ondertiteling genereren:

1. Een terugkerend neuraal netwerk (RNN) wordt gebruikt om bijschriften voor afbeeldingen te genereren op basis van de geëxtraheerde kenmerken.

2. De RNN is getraind om de waarschijnlijkheid van het juiste onderschrift te maximaliseren, gegeven de afbeeldingskenmerken.

- Taalmodel:

1. Er wordt een aanvullend taalmodel gebruikt om de grammaticale correctheid en vloeiendheid van de gegenereerde bijschriften te verbeteren.

2. Het taalmodel wordt getraind op een groot corpus aan tekstgegevens.

Algoritme:

1. Invoer:

- Afbeelding

- Vooraf getraind CNN-model

- Vooraf getraind RNN-model

- Taalmodel

2. Stappen:

1. Wijzig het formaat en kleurnormaliseer de invoerafbeelding.

2. Extraheer diepe kenmerken uit de afbeelding met behulp van het CNN-model.

3. Genereer een eerste bijschrift voor de afbeelding met behulp van het RNN-model.

4. Verfijn het bijschrift door het taalmodel toe te passen.

5. Uitvoer:

- Een bijschrift in natuurlijke taal voor de invoerafbeelding.

Datasets:

- COCO (Common Objects in Context):Een grootschalige dataset van afbeeldingen met objectannotaties en tekstbijschriften.

- Flickr8k:een dataset van 8.000 afbeeldingen met door mensen geschreven bijschriften.

- Flickr30k:een grotere dataset met 30.000 afbeeldingen en door mensen geschreven bijschriften.

Evaluatie:

- Statistieken:

- BLEU (Bilingual Evaluation Understudy):Meet de gelijkenis tussen gegenereerde bijschriften en door mensen geschreven referentiebijschriften.

- METEOR (Metric for Evaluation of Translation with Explicit Ordering):Een andere maatstaf voor de gelijkenis tussen gegenereerde en referentiebijschriften.

- CIDEr (Consensus-based Image Description Evaluation):een maatstaf die rekening houdt met de consensus onder meerdere menselijke rechters.