Wetenschap
Krediet:CC0 Publiek Domein
Nu machine learning-systemen worden gebruikt om alles te bepalen, van aandelenprijzen tot medische diagnoses, het is nog nooit zo belangrijk geweest om te kijken naar hoe ze tot beslissingen komen.
Een nieuwe benadering van MIT toont aan dat de belangrijkste boosdoener niet alleen de algoritmen zelf zijn, maar hoe de gegevens zelf worden verzameld.
"Computerwetenschappers zeggen vaak snel dat de manier om deze systemen minder bevooroordeeld te maken, is door simpelweg betere algoritmen te ontwerpen, " zegt hoofdauteur Irene Chen, een doctoraat student die het artikel schreef met MIT-professor David Sontag en postdoctoraal medewerker Fredrik D. Johansson. "Maar algoritmen zijn slechts zo goed als de gegevens die ze gebruiken, en uit ons onderzoek blijkt dat je met betere data vaak een groter verschil kunt maken."
Kijkend naar specifieke voorbeelden, onderzoekers waren in staat om zowel mogelijke oorzaken voor verschillen in nauwkeurigheid te identificeren als de individuele impact van elke factor op de gegevens te kwantificeren. Vervolgens lieten ze zien hoe het veranderen van de manier waarop ze gegevens verzamelden, elk type vooringenomenheid kon verminderen en toch hetzelfde niveau van voorspellende nauwkeurigheid kon behouden.
"We zien dit als een toolbox om machine learning-ingenieurs te helpen erachter te komen welke vragen ze aan hun gegevens moeten stellen om te diagnosticeren waarom hun systemen mogelijk oneerlijke voorspellingen doen. ' zegt Sontag.
Chen zegt dat een van de grootste misvattingen is dat meer data altijd beter is. Meer deelnemers krijgen helpt niet per se, omdat putten uit exact dezelfde populatie er vaak toe leidt dat dezelfde subgroepen ondervertegenwoordigd zijn. Zelfs de populaire beelddatabase ImageNet, met zijn vele miljoenen afbeeldingen, is aangetoond dat het bevooroordeeld is naar het noordelijk halfrond.
Volgens Sontag vaak is het belangrijkste om erop uit te gaan en meer gegevens te krijgen van die ondervertegenwoordigde groepen. Bijvoorbeeld, het team keek naar een inkomensvoorspellingssysteem en ontdekte dat het twee keer zo waarschijnlijk was dat vrouwelijke werknemers verkeerd werden geclassificeerd als lage inkomens en mannelijke werknemers als hoge inkomens. Ze ontdekten dat als ze de dataset met een factor 10 hadden vergroot, die fouten zouden 40 procent minder vaak voorkomen.
In een andere dataset, de onderzoekers ontdekten dat het vermogen van een systeem om sterfte op de intensive care (ICU) te voorspellen minder nauwkeurig was voor Aziatische patiënten. Bestaande benaderingen voor het verminderen van discriminatie zouden de niet-Aziatische voorspellingen in feite alleen maar minder nauwkeurig maken, wat problematisch is als je het hebt over instellingen zoals gezondheidszorg die letterlijk leven-of-dood kunnen zijn.
Chen zegt dat hun aanpak hen in staat stelt om naar een dataset te kijken en te bepalen hoeveel meer deelnemers uit verschillende populaties nodig zijn om de nauwkeurigheid voor de groep met een lagere nauwkeurigheid te verbeteren, terwijl de nauwkeurigheid voor de groep met een hogere nauwkeurigheid behouden blijft.
"We kunnen trajectcurves plotten om te zien wat er zou gebeuren als we er 2 zouden toevoegen, 000 meer mensen versus 20, 000, en op basis daarvan berekenen hoe groot de dataset moet zijn als we het beste van alle werelden willen hebben, ", zegt Chen. "Met een meer genuanceerde benadering als deze, ziekenhuizen en andere instellingen zouden beter toegerust zijn om kosten-batenanalyses te doen om te zien of het nuttig is om meer gegevens te krijgen."
U kunt ook proberen extra soorten gegevens van uw bestaande deelnemers te krijgen. Echter, dat zal de zaken ook niet verbeteren als de extra gegevens niet echt relevant zijn, zoals statistieken over de lengte van mensen voor een onderzoek naar IQ. De vraag wordt dan hoe u kunt bepalen wanneer en voor wie u meer informatie moet verzamelen.
Een methode is het identificeren van clusters van patiënten met grote verschillen in nauwkeurigheid. Voor IC-patiënten, een clustermethode op tekst genaamd onderwerpmodellering toonde aan dat hart- en kankerpatiënten beide grote raciale verschillen in nauwkeurigheid hadden. Deze bevinding zou kunnen suggereren dat meer diagnostische tests voor hart- of kankerpatiënten de raciale verschillen in nauwkeurigheid zouden kunnen verminderen.
Het team zal de paper in december presenteren op de jaarlijkse conferentie over Neural Information Processing Systems (NIPS) in Montreal.
Wetenschap © https://nl.scienceaq.com