science >> Wetenschap >  >> anders

Het projecteren van de resultaten van het leven van mensen met AI is niet zo eenvoudig

De Fragile Families-studie verzamelde informatie over kinderen bij de geboorte en in de leeftijd van 1 3, 5, 9 en 15. Deze informatie is verzameld via verschillende onderzoeken, vermeld aan de linkerkant van deze leeftijden in de bovenstaande grafiek. De Fragile Families Challenge gebruikte gegevens van de eerste tot en met de vijfde fase om de resultaten in de zesde fase te voorspellen. Krediet:Matthew Salganik et al. 2020, Princeton Universiteit

De machine learning-technieken die wetenschappers gebruiken om de resultaten van grote datasets te voorspellen, kunnen tekortschieten als het gaat om het projecteren van de resultaten van het leven van mensen. volgens een massale studie geleid door onderzoekers van Princeton University in samenwerking met onderzoekers van vele instellingen, inclusief Virginia Tech.

Deze massale samenwerking, genaamd de Fragile Families Challenge, vertegenwoordigt een cohort wetenschappers die statistische en machinaal lerende modellen bouwen om levensresultaten voor kinderen te voorspellen en te meten, ouders, en huishoudens in de Verenigde Staten.

Gepubliceerd door 112 co-auteurs in de Proceedings van de National Academy of Sciences , de resultaten suggereren dat sociologen en datawetenschappers voorzichtig moeten zijn bij het gebruik van voorspellende modellering, vooral in het strafrechtelijk systeem en sociale programma's.

Zelfs na het gebruik van state-of-the-art modellering en een hoogwaardige dataset met 13, 000 datapunten voor meer dan 4, 000 gezinnen, de beste AI-voorspellende modellen waren niet erg nauwkeurig.

Brian J. Goode, een onderzoekswetenschapper van het Fralin Life Sciences Institute van Virginia Tech, was een van de data- en sociale wetenschappers die deelnamen aan de Fragile Families Challenge.

Figuur A toont het verschil tussen de beste inzendingen per uitkomst ten opzichte van het benchmarkmodel. Figuur B-G vergeleek de voorspellingen en de waarheid voor elke uitkomst. Krediet:Matthew Salganik et al. 2020, Princeton Universiteit

"Het is één poging om de complexiteit en de fijne kneepjes van het menselijk leven vast te leggen in gegevens en modellen. Maar, het is verplicht om de volgende stap te zetten en modellen te contextualiseren in termen van hoe ze zullen worden toegepast om beter te redeneren over verwachte onzekerheden en beperkingen van een voorspelling. Dat is een heel moeilijk probleem om mee om te gaan, en ik denk dat de Fragile Families Challenge laat zien dat we meer onderzoeksondersteuning op dit gebied nodig hebben, vooral omdat machine learning een grotere impact heeft op ons dagelijks leven, " zei Goode.Goode's modellering werd uitgevoerd via het Discovery Analytics Center van Virginia Tech. Daar, hij werkte samen met de directeur van het Discovery Analytics Center en de Thomas L. Phillips Professor of Engineering, Naren Ramakrishnan, en Debanjan Datta, een doctoraat student in de afdeling Informatica van het College of Engineering, die een belangrijke rol speelden bij het verzamelen en analyseren van gegevens.

Het Virginia Tech-team heeft ook onderzoek gepubliceerd in een speciale uitgave van Socius, een nieuw open-access tijdschrift van de American Sociological Association. Om aanvullend onderzoek op dit gebied te ondersteunen, alle inzendingen voor de Challenge-code, voorspellingen en verhalende verklaringen zijn openbaar beschikbaar.

"De studie laat ons ook zien dat we nog zoveel te leren hebben, en massale samenwerkingen zoals deze zijn enorm belangrijk voor de onderzoeksgemeenschap, " zei de mede-hoofdauteur van het PNAS-onderzoek Matt Salganik, hoogleraar sociologie aan Princeton en interim-directeur van het Centre for Information Technology Policy, gebaseerd op Princeton's Woodrow Wilson School of Public and International Affairs.

Het project is geïnspireerd op Wikipedia, een van 's werelds eerste massasamenwerkingen, die in 2001 werd opgericht als een gedeelde encyclopedie. Salganik dacht na over welke andere wetenschappelijke problemen zouden kunnen worden opgelost door een nieuwe vorm van samenwerking, en toen bundelde hij zijn krachten met Sara McLanahan, de William S. Tod hoogleraar sociologie en openbare aangelegenheden aan Princeton, evenals Princeton-afgestudeerde studenten Ian Lundberg en Alex Kindel, beide bij de afdeling Sociologie.

McLanahan is hoofdonderzoeker van de Fragile Families and Child Wellbeing Study aan de Princeton en Columbia University, die een cohort van ongeveer 5 heeft bestudeerd, 000 kinderen geboren in grote Amerikaanse steden tussen 1998 en 2000, met een oversteekproef van kinderen van ongehuwde ouders. Het longitudinale onderzoek was bedoeld om inzicht te krijgen in het leven van kinderen die in ongehuwde gezinnen zijn geboren.

Door middel van enquêtes verzameld in zes golven (wanneer het kind werd geboren en toen het kind de leeftijd van 1 jaar bereikte), 3, 5, 9, en 15), de studie heeft miljoenen datapunten verzameld over kinderen en hun families. Een andere golf zal worden vastgelegd op 22-jarige leeftijd.

Toen de onderzoekers de uitdaging ontwierpen, gegevens vanaf de leeftijd van 15 jaar (die de onderzoekers in de krant de 'hold-out-gegevens' noemen) waren nog niet openbaar gemaakt. Dit creëerde een mogelijkheid om andere wetenschappers te vragen om de levensuitkomsten van de mensen in het onderzoek te voorspellen door middel van een massale samenwerking.

160 onderzoeksteams van gegevens- en sociale wetenschappers bouwden statistische en machinale leermodellen om zes levensuitkomsten voor kinderen te voorspellen, ouders, en huishoudens. Zelfs na het gebruik van een state-of-the-art modellering en een hoogwaardige dataset met 13, 000 datapunten over meer dan 4, 000 gezinnen, de beste AI-voorspellende modellen waren niet erg nauwkeurig. Krediet:Egan Jimenez, Princeton Universiteit

De medeorganisatoren ontvingen 457 aanmeldingen van 68 instellingen uit de hele wereld, waaronder van verschillende teams gebaseerd op Princeton. Met behulp van de gegevens van Fragile Families, deelnemers werd gevraagd om een ​​of meer van de zes levensuitkomsten op 15-jarige leeftijd te voorspellen. Deze omvatten het gemiddelde van het kindcijfer (GPA); kind grit; huisuitzetting; huishoudelijke materiële ontberingen; ontslag van de primaire verzorger; en deelname van primaire verzorgers aan beroepsopleidingen.

De uitdaging was gebaseerd op de gemeenschappelijke taakmethode, een onderzoeksontwerp dat vaak wordt gebruikt in de informatica, maar niet in de sociale wetenschappen. Deze methode geeft enkele, maar niet alle gegevens vrij, waardoor mensen elke techniek kunnen gebruiken die ze willen om de resultaten te bepalen. Het doel is om de hold-outgegevens nauwkeurig te voorspellen, hoe mooi een techniek ook is om daar te komen.

Het team vraagt ​​momenteel subsidies aan om het onderzoek op dit gebied voort te zetten.

De krant, "Het meten van de voorspelbaarheid van levensuitkomsten met een wetenschappelijke massale samenwerking, " werd op 30 maart gepubliceerd door PNAS .