science >> Wetenschap >  >> anders

Een eed van Hippocrates voor datawetenschap? Wel genoegen nemen met wat meer datageletterdheid

vooringenomenheid, bias out:veel algoritmen hebben inherente ontwerpproblemen. Krediet:Vintage Toon/Shutterstock

"Ik zweer bij Hypatia, door Lovelace, door Turing, door Fisher (en/of Bayes), en door alle statistici en datawetenschappers, hen tot mijn getuigen maken, die ik zal uitvoeren, naar mijn vermogen en oordeel, deze eed en dit contract."

Zou dit de eerste regel kunnen zijn van een "Hippocratische eed" voor wiskundigen en datawetenschappers? Hanna Frits, Universitair hoofddocent in de wiskunde van steden aan University College London, stelt dat wiskundigen en datawetenschappers zo'n eed nodig hebben, net als artsen die zweren alleen in het belang van hun patiënten te handelen.

"In de geneeskunde, je leert vanaf dag één over ethiek. In wiskunde, het is op zijn best een bout. Het moet er vanaf de eerste dag zijn en in de voorhoede van je geest bij elke stap die je zet, ’ wierp Fry tegen.

Maar is een technische versie van de eed van Hippocrates echt nodig? in de geneeskunde, deze eden variëren tussen instellingen, en zijn enorm geëvolueerd in de bijna 2, 500 jaar van hun geschiedenis. Inderdaad, er is enige discussie over de vraag of de eed relevant blijft voor praktiserende artsen, vooral omdat het de wet is, in plaats van een reeks oude Griekse principes, waaraan ze zich uiteindelijk moeten houden.

Hoe heeft data science het punt bereikt waarop een ethische belofte noodzakelijk wordt geacht? Er zijn zeker talloze voorbeelden van algoritmen die schade berokkenen:algoritmen voor strafrechtelijke veroordelingen, bijvoorbeeld, is aangetoond dat zij onevenredig aanbevelen dat mensen met een laag inkomen en minderheden naar de gevangenis worden gestuurd.

Soortgelijke crises hebben eerder geleid tot voorstellen voor ethische beloften. In de nasleep van de wereldwijde financiële crisis van 2008 een manifest van financiële ingenieurs Emanuel Derman en Paul Wilmott smeekten economische modelbouwers om te zweren "de mensen die mijn model gebruiken geen valse troost te geven over de nauwkeurigheid ervan. In plaats daarvan, Ik zal de aannames en onoplettendheid ervan expliciet maken."

Net zoals vooroordelen als kind kunnen worden aangeleerd, de vooroordelen van deze algoritmen zijn het resultaat van hun training. Een gemeenschappelijk kenmerk van deze algoritmen is het gebruik van black-box (vaak propriëtaire) algoritmen, waarvan vele zijn getraind met behulp van statistisch bevooroordeelde gegevens.

In het geval van strafrecht, de onrechtvaardige uitkomst van het algoritme komt voort uit het feit dat historisch gezien, minderheden zijn oververtegenwoordigd in de gevangenispopulaties (hoogstwaarschijnlijk als gevolg van lang bestaande menselijke vooroordelen). Deze bias wordt daarom gerepliceerd en waarschijnlijk verergerd door het algoritme.

Machine learning-algoritmen worden getraind op data, en kan alleen worden verwacht dat ze voorspellingen produceren die beperkt zijn tot die gegevens. vooringenomenheid, vooroordeel uit.

Beloften, belooft

Zou het afleggen van een ethische belofte de ontwerpers van deze algoritmen hebben geholpen? Misschien, maar een groter bewustzijn van statistische vooroordelen was misschien voldoende geweest. Kwesties van onbevooroordeelde representatie in steekproeven zijn lange tijd een hoeksteen geweest van statistieken, en training in deze onderwerpen kan ertoe hebben geleid dat de ontwerpers een stap terug hebben gedaan en de geldigheid van hun voorspellingen in twijfel hebben getrokken.

Fry heeft zelf in het verleden opmerkingen over deze kwestie gemaakt, zeggen dat het nodig is dat mensen "aandacht besteden aan hoe vooroordelen die je hebt in gegevens uiteindelijk kunnen doorwerken in de analyses die je doet."

Maar hoewel kwesties van onbevooroordeelde representatie niet nieuw zijn in de statistieken, het toenemende gebruik van krachtige algoritmen in controversiële gebieden maakt "datageletterdheid" relevanter dan ooit.

Een deel van het probleem is het gemak waarmee machine learning-algoritmen kunnen worden toegepast, waardoor datageletterdheid niet langer specifiek is voor wiskundigen en computerwetenschappers, maar voor het grote publiek. Wijdverbreide statistische basiskennis en datageletterdheid zouden het bewustzijn van de problemen met statistische vooroordelen vergroten, en zijn een eerste stap in de richting van bescherming tegen ongepast gebruik van algoritmen.

Niemand is perfect, en hoewel verbeterde datageletterdheid zal helpen, onbedoelde vooroordelen kunnen nog steeds over het hoofd worden gezien. Algoritmen kunnen ook fouten bevatten. Een gemakkelijke (te beschrijven) manier om dergelijke problemen te voorkomen, is door ze openbaar beschikbaar te maken. Dergelijke open source-code kan leiden tot gezamenlijke verantwoordelijkheid voor bias en foutcontrole.

Dit soort pogingen beginnen te ontstaan, bijvoorbeeld het Web Transparency and Accountability Project aan de Princeton University. Natuurlijk, veel propriëtaire algoritmen zijn commercieel in vertrouwen, wat transparantie moeilijk maakt. Regelgevende kaders zullen op dit gebied dus waarschijnlijk belangrijk en noodzakelijk worden. Maar een voorwaarde is voor beoefenaars, politici, advocaten, en anderen om de problemen rond de wijdverbreide toepasbaarheid van modellen te begrijpen, en hun inherente statistische vooroordelen.

Ethiek is ongetwijfeld belangrijk, en in een perfecte wereld zou deel uitmaken van elke opleiding. Maar universitaire graden zijn eindig. We stellen dat data- en statistische geletterdheid een nog dringender probleem is, en zou kunnen helpen beschermen tegen het verschijnen van meer "onethische algoritmen" in de toekomst.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.