Wetenschap
Krediet:CC0 Publiek Domein
In een onderzoek met mogelijk verstrekkende implicaties voor het strafrecht in de Verenigde Staten, een team van Californische onderzoekers heeft ontdekt dat algoritmen aanzienlijk nauwkeuriger zijn dan mensen om te voorspellen welke verdachten later zullen worden gearresteerd voor een nieuw misdrijf.
Bij het beoordelen van slechts een handvol variabelen in een gecontroleerde omgeving, zelfs ongetrainde mensen kunnen de voorspellende vaardigheid van geavanceerde instrumenten voor risicobeoordeling evenaren, zegt de nieuwe studie door wetenschappers van Stanford University en de University of California, Berkeley.
Maar de strafrechtelijke situaties in de echte wereld zijn vaak veel complexer, en wanneer een groter aantal factoren nuttig is om recidive te voorspellen, de op algoritmen gebaseerde tools presteerden veel beter dan mensen. Bij sommige testen de tools benaderden een nauwkeurigheid van 90% bij het voorspellen welke verdachten opnieuw zouden worden gearresteerd, vergeleken met ongeveer 60% voor menselijke voorspelling.
"Risicobeoordeling is al lang een onderdeel van de besluitvorming in het strafrechtelijk systeem, " zei Jennifer Skeem, een psycholoog die gespecialiseerd is in strafrecht aan UC Berkeley. "Hoewel het recente debat belangrijke vragen heeft opgeroepen over op algoritmen gebaseerde tools, ons onderzoek toont aan dat in contexten die lijken op echte strafrechtelijke instellingen, risicobeoordelingen zijn vaak nauwkeuriger dan het menselijk oordeel bij het voorspellen van recidive. Dat komt overeen met een lange onderzoekslijn waarin mensen worden vergeleken met statistische hulpmiddelen."
"Gevalideerde instrumenten voor risicobeoordeling kunnen justitiële professionals helpen beter geïnformeerde beslissingen te nemen, " zei Sharad Goel, een computationele sociale wetenschapper aan de Stanford University. "Bijvoorbeeld, deze instrumenten kunnen rechters helpen bij het identificeren en mogelijk vrijlaten van mensen die weinig risico vormen voor de openbare veiligheid. Maar, zoals elk gereedschap, instrumenten voor risicobeoordeling moeten worden gekoppeld aan degelijk beleid en menselijk toezicht om eerlijke en effectieve hervorming van het strafrecht te ondersteunen."
Het artikel - "De grenzen van menselijke voorspellingen van recidive" - stond gepland voor publicatie op 14 februari, 2020, in wetenschappelijke vooruitgang . Skeem presenteerde het onderzoek op 13 februari in een persconferentie op de jaarlijkse bijeenkomst van de American Association for the Advancement of Science (AAAS) in Seattle, Wash. Bij haar waren twee co-auteurs:Ph.D. afgestudeerde Jongbin Jung en Ph.D. kandidaat Zhiyuan "Jerry" Lin, die beiden computationele sociale wetenschappen studeerden aan Stanford.
De onderzoeksresultaten zijn belangrijk omdat de Verenigde Staten debatteren over hoe de behoeften van gemeenschappen aan veiligheid in evenwicht kunnen worden gebracht, terwijl het aantal opsluitingen, dat het hoogste is van alle naties ter wereld, kan worden teruggedrongen - en die Afro-Amerikanen en gekleurde gemeenschappen onevenredig treft.
Als het gebruik van geavanceerde instrumenten voor risicobeoordeling doorgaat en verbetert, die cruciale beslissingen kunnen verfijnen die justitiële professionals dagelijks nemen:welke individuen kunnen worden gerehabiliteerd in de gemeenschap, in plaats van in de gevangenis? Die naar slecht beveiligde gevangenissen kunnen gaan, en welke naar zwaarbeveiligde sites? En welke gevangenen kunnen veilig voorwaardelijk worden vrijgelaten in de gemeenschap?
Beoordelingstools die worden aangedreven door algoritmen worden veel gebruikt in de Verenigde Staten, op uiteenlopende terreinen als medische zorg, toelating tot het bankwezen en de universiteit. Ze worden al lang gebruikt in het strafrecht, rechters en anderen helpen om gegevens af te wegen bij het nemen van hun beslissingen.
Maar anno 2018, onderzoekers van Dartmouth University stelden vragen over de juistheid van dergelijke instrumenten in een strafrechtelijk kader. In een onderzoek, zij verzamelden 1, 000 korte vignetten van criminele verdachten, met informatie uit een veelgebruikte risicobeoordeling, de Correctional Offender Management Profiling for Alternative Sanctions (COMPAS).
De vignetten bevatten elk vijf risicofactoren voor recidive:het geslacht van de persoon, leeftijd, huidige strafrechtelijke aanklacht, en het aantal eerdere delicten voor volwassenen en minderjarigen. De onderzoekers gebruikten vervolgens het Mechanical Turk-platform van Amazon om 400 vrijwilligers te werven om de vignetten te lezen en te beoordelen of elke beklaagde binnen twee jaar een nieuwe misdaad zou plegen. Na het bekijken van elk vignet, de vrijwilligers werd verteld of hun evaluatie de recidive van de proefpersoon nauwkeurig voorspelde.
Zowel de mensen als het algoritme waren iets minder dan tweederde van de tijd nauwkeurig.
deze resultaten, de auteurs van Dartmouth concludeerden, twijfel doen rijzen over de waarde van instrumenten voor risicobeoordeling en algoritmische voorspelling.
De studie genereerde spraakmakende berichtgeving en zorgde voor een golf van twijfel in de Amerikaanse gemeenschap voor hervorming van het strafrecht. Als geavanceerde instrumenten niet beter waren dan mensen om te voorspellen welke verdachten zouden recidive, sommigen zeiden, toen had het weinig zin om de algoritmen te gebruiken, wat de raciale vooroordelen bij de veroordeling alleen maar zou versterken. Sommigen voerden aan dat zulke ingrijpende beslissingen door mensen moeten worden genomen, niet computers.
Worstelen met "ruis" bij complexe beslissingen
Maar toen de auteurs van de nieuwe studie in Californië aanvullende datasets en meer factoren evalueerden, zij concludeerden dat instrumenten voor risicobeoordeling veel nauwkeuriger kunnen zijn dan mensen bij het beoordelen van de kans op recidive.
De studie repliceerde de bevindingen van Dartmouth die waren gebaseerd op een beperkt aantal factoren. Echter, de informatie die beschikbaar is in justitiële instellingen is veel rijker - en vaak dubbelzinniger.
"Onderzoeksrapporten voor de zin, advocaat en slachtofferverklaringen, en het gedrag van een persoon voegen allemaal complexe, inconsistent, risico-irrelevant, en mogelijk vertekenende informatie, " legt de nieuwe studie uit.
De hypothese van de auteurs:als onderzoeksevaluaties werken in een realistisch kader, waar risicogerelateerde informatie complex is en "luidruchtig, " dan zouden geavanceerde risicobeoordelingsinstrumenten effectiever zijn dan mensen om te voorspellen welke criminelen opnieuw zouden begaan.
Om de hypothese te testen, ze breidden hun onderzoek verder uit dan COMPAS om andere datasets op te nemen. Naast de vijf risicofactoren die in de Dartmouth-studie werden gebruikt, ze hebben er nog 10 toegevoegd, inclusief arbeidsstatus, middelengebruik en geestelijke gezondheid. Ze breidden ook de methodologie uit:in tegenstelling tot de Dartmouth-studie, in sommige gevallen kregen de vrijwilligers na elke evaluatie niet te horen of hun voorspellingen juist waren. Dergelijke feedback is niet beschikbaar voor rechters en anderen in het rechtssysteem.
Het resultaat:mensen presteerden "consistent slechter" dan de risicobeoordelingstool in complexe gevallen waarin ze geen onmiddellijke feedback hadden om toekomstige beslissingen te sturen.
Bijvoorbeeld, de COMPAS voorspelde de recidive in 89% van de gevallen correct, vergeleken met 60% voor mensen die geen case-by-case feedback over hun beslissingen kregen. Wanneer meerdere risicofactoren werden verstrekt en voorspellend waren, een ander risicobeoordelingsinstrument voorspelde nauwkeurig recidive in 80% van de gevallen, vergeleken met minder dan 60% voor mensen.
De bevindingen lijken het voortgezette gebruik en toekomstige verbetering van risicobeoordelingsalgoritmen te ondersteunen. Maar, zoals Skeem opmerkte, deze tools hebben meestal een ondersteunende rol. Ultieme autoriteit berust bij rechters, reclasseringsambtenaren, clinici, paroolcommissarissen en anderen die beslissingen in het strafrechtelijk systeem vormgeven.
Wetenschap © https://nl.scienceaq.com