Wetenschap
Tegoed:Unsplash/CC0 Publiek domein
Om worstelende studenten te helpen voordat het te laat is, steeds meer universiteiten passen modellen voor machinaal leren toe om studenten te identificeren die het risico lopen uit te vallen.
Welke informatie in deze modellen gaat, kan een groot effect hebben op hoe nauwkeurig en eerlijk ze zijn, vooral als het gaat om beschermde studentkenmerken zoals geslacht, ras en gezinsinkomen. Maar in een nieuwe studie de grootste audit van een AI-systeem van een universiteit tot nu toe, onderzoekers vinden geen bewijs dat het verwijderen van beschermde leerlingkenmerken uit een model de nauwkeurigheid of eerlijkheid van voorspellingen verbetert.
Dit resultaat kwam als een verrassing voor René Kizilcec, universitair docent informatiekunde en directeur van het Future of Learning Lab.
"We verwachtten dat het verwijderen van sociaal-demografische kenmerken het model minder nauwkeurig zou maken, vanwege de manier waarop deze kenmerken zijn vastgesteld bij het bestuderen van academische prestaties, " zei hij. "Hoewel we vinden dat het toevoegen van deze attributen geen empirisch voordeel biedt, we raden aan om ze in het model op te nemen, omdat het op zijn minst het bestaan van onderwijsongelijkheden erkent die er nog steeds mee verbonden zijn."
Kizilcec is senior auteur van "Should College Dropout Prediction Models Include Protected Attributes?" te presenteren op de virtuele Association for Computing Machinery Conference on Learning at Scale, 22-25 juni. Het werk is genomineerd voor een conferentie Best Paper award.
Co-auteurs zijn Future of Learning Lab-leden Hannah Lee, een masterstudent in de informatica, en hoofdauteur Renzhe Yu, een doctoraatsstudent aan de Universiteit van Californië, Irvine.
Voor dit werk, Kizilcec en zijn team onderzochten gegevens over studenten in zowel een residentiële universiteitsomgeving als een volledig online programma. De instelling in het onderzoek is een grote openbare universiteit in het zuidwesten van de VS, die niet in de krant wordt genoemd.
Door systematisch voorspellende modellen met en zonder beschermde attributen te vergelijken, de onderzoekers wilden bepalen hoe de opname van beschermde attributen de nauwkeurigheid van de voorspelling van schooluitval beïnvloedt, en of de opname van beschermde attributen van invloed is op de eerlijkheid van de voorspelling van schooluitval.
De dataset van de onderzoekers was enorm:in totaal 564, 104 records voor residentiële cursussen voor 93, 457 unieke studenten en 2, 877 unieke cursussen; en 81, 858 online cursusrecords voor 24, 198 unieke studenten en 874 unieke cursussen.
Uit de dataset, Het team van Kizilcec heeft 58 identificerende kenmerken gebouwd in vier categorieën, inclusief vier beschermde kenmerken:het geslacht van de student; eerste generatie college-status; lid van een ondervertegenwoordigde minderheidsgroep (gedefinieerd als noch Aziatisch, noch blank); en grote financiële behoefte. Om de gevolgen te bepalen van het gebruik van beschermde attributen om uitval te voorspellen, de onderzoekers genereerden twee functiesets:een met beveiligde attributen en een zonder.
Hun belangrijkste bevinding:het opnemen van vier belangrijke beschermde attributen heeft geen significant effect op drie algemene metingen van algemene voorspellingsprestaties bij veelgebruikte functies, inclusief academische records, zitten al in het model.
"Wat belangrijk is voor het identificeren van risicoleerlingen wordt al verklaard door andere kenmerken, "Zei Kizilcec. "Beschermde attributen voegen niet veel toe. Er kan een genderkloof of een raciale kloof zijn, maar de associatie met uitval is verwaarloosbaar in vergelijking met kenmerken zoals eerdere GPA."
Dat gezegd hebbende, Kizilcec en zijn team pleiten nog steeds voor het opnemen van beschermde attributen in voorspellingsmodellering. Ze merken op dat gegevens over het hoger onderwijs langdurige ongelijkheid weerspiegelen, en ze citeren recent werk in de bredere gemeenschap van machine learning dat het idee van 'eerlijkheid door bewustzijn' ondersteunt.
"Er is werk geweest dat aantoont dat de manier waarop bepaalde attributen, zoals academisch record, de waarschijnlijkheid van een student om door te gaan op de universiteit kan variëren tussen verschillende beschermde-attribuutgroepen, ', zei hij. 'En dus door leerlingkenmerken in het model op te nemen, we kunnen rekening houden met deze variatie tussen verschillende studentengroepen."
De auteurs concludeerden door te stellen:"We hopen dat deze studie meer onderzoekers in de leeranalyse- en educatieve datamininggemeenschappen inspireert om zich bezig te houden met kwesties van algoritmische vooringenomenheid en eerlijkheid in de modellen en systemen die ze ontwikkelen en evalueren."
Het laboratorium van Kizilcec heeft veel werk verricht op het gebied van algoritmische eerlijkheid in het onderwijs, waarvan hij zei dat het een onderbelicht onderwerp is.
"Dat komt deels omdat de algoritmen [in het onderwijs] niet zo zichtbaar zijn, en ze werken vaak op verschillende manieren in vergelijking met strafrecht of geneeskunde, " zei hij. "In het onderwijs, het gaat er niet om iemand naar de gevangenis te sturen, of ten onrechte de diagnose kanker krijgen. Maar voor de individuele leerling het kan een groot probleem zijn om te worden gemarkeerd als risicovol."
Wetenschap © https://nl.scienceaq.com