Wetenschap
Tegoed:Unsplash/CC0 Publiek domein
Een onderzoek naar de soorten fouten die mensen maken bij het evalueren van afbeeldingen, kan computeralgoritmen mogelijk maken die ons helpen betere beslissingen te nemen over visuele informatie, zoals tijdens het lezen van een röntgenfoto of het modereren van online inhoud.
Onderzoekers van Cornell en partnerinstellingen analyseerden meer dan 16 miljoen menselijke voorspellingen over de vraag of een buurt bij de presidentsverkiezingen van 2020 op Joe Biden of Donald Trump stemde op basis van een enkele Google Street View-afbeelding. Ze ontdekten dat mensen als groep goed presteerden bij de taak, maar een computeralgoritme was beter in het onderscheiden tussen Trump en het land van Biden.
De studie classificeerde ook veelvoorkomende manieren waarop mensen het verknoeien en identificeerde objecten, zoals pick-up trucks en Amerikaanse vlaggen, die mensen op een dwaalspoor brachten.
"We proberen te begrijpen, waar een algoritme een effectievere voorspelling heeft dan een mens, kunnen we dat gebruiken om de mens te helpen, of een beter hybride mens-machine-systeem te maken dat je het beste van twee werelden geeft?" zei eerste auteur J.D. Zamfirescu-Pereira, een afgestudeerde student aan de University of California in Berkeley.
Hij presenteerde het werk, getiteld "Trucks Don't Mean Trump:Diagnosing Human Error in Image Analysis", op de 2022 Association for Computing Machinery (ACM) Conference on Fairness, Accountability, and Transparency (FAccT).
Onlangs hebben onderzoekers veel aandacht besteed aan de kwestie van algoritmische vooringenomenheid, waarbij algoritmen fouten maken die systematisch vrouwen, raciale minderheden en andere historisch gemarginaliseerde bevolkingsgroepen benadelen.
"Algoritmen kunnen op talloze manieren verknoeien en dat is erg belangrijk", zegt senior auteur Emma Pierson, assistent-professor computerwetenschappen aan het Jacobs Technion-Cornell Institute van Cornell Tech en de Technion met de Cornell Ann S. Bowers. College van Informatica en Informatiewetenschappen. "Maar mensen zijn zelf bevooroordeeld en foutgevoelig, en algoritmen kunnen zeer nuttige diagnostiek bieden voor hoe mensen het verknoeien."
De onderzoekers gebruikten geanonimiseerde gegevens van een interactieve quiz van de New York Times die lezers snapshots van 10.000 locaties in het hele land liet zien en hen vroegen te raden hoe de buurt stemde. Ze trainden een machine learning-algoritme om dezelfde voorspelling te doen door het een subset van Google Street View-afbeeldingen te geven en het te voorzien van echte stemresultaten. Vervolgens vergeleken ze de prestaties van het algoritme op de resterende afbeeldingen met die van de lezers.
Over het algemeen voorspelde het machine learning-algoritme ongeveer 74% van de tijd het juiste antwoord. Wanneer het gemiddelde werd genomen om "de wijsheid van de menigte" te onthullen, hadden mensen 71% van de tijd gelijk, maar individuele mensen scoorden slechts ongeveer 63%.
Mensen kozen vaak ten onrechte voor Trump wanneer het straatbeeld pick-uptrucks of een wijd open lucht liet zien. In een artikel in de New York Times merkten de deelnemers op dat ze door Amerikaanse vlaggen ook meer geneigd waren om Trump te voorspellen, ook al waren buurten met vlaggen gelijk verdeeld over de kandidaten.
De onderzoekers classificeerden de menselijke fouten als het resultaat van vooringenomenheid, variantie of ruis - drie categorieën die vaak worden gebruikt om fouten van machine learning-algoritmen te evalueren. Bias staat voor fouten in de wijsheid van de menigte, bijvoorbeeld door altijd pick-uptrucks met Trump te associëren. Variantie omvat individuele verkeerde oordelen - wanneer één persoon een slechte beslissing neemt, ook al had de menigte gemiddeld gelijk. Ruis is wanneer de afbeelding geen bruikbare informatie geeft, zoals een huis met een Trump-bord in een buurt waar voornamelijk Biden stemmen.
Het kunnen onderverdelen van menselijke fouten in categorieën kan de menselijke besluitvorming helpen verbeteren. Neem bijvoorbeeld radiologen die röntgenfoto's lezen om een ziekte te diagnosticeren. Als er veel fouten zijn vanwege vooringenomenheid, moeten artsen mogelijk worden bijgeschoold. Als de diagnose gemiddeld genomen succesvol is, maar er is verschil tussen radiologen, dan kan een second opinion gerechtvaardigd zijn. En als er veel misleidende ruis in de röntgenfoto's zit, kan een andere diagnostische test nodig zijn.
Uiteindelijk kan dit werk leiden tot een beter begrip van hoe menselijke en machinale besluitvorming kunnen worden gecombineerd voor mens-in-the-loop-systemen, waarbij mensen input geven aan anderszins geautomatiseerde processen.
"Je wilt de prestaties van het hele systeem samen bestuderen - mensen plus het algoritme, omdat ze op onverwachte manieren kunnen interageren," zei Pierson. + Verder verkennen
Wetenschap © https://nl.scienceaq.com