science >> Wetenschap >  >> Elektronica

Hoe goed werken uitlegmethoden voor modellen voor machine learning?

Krediet:Pixabay/CC0 publiek domein

Stel je een team van artsen voor dat een neuraal netwerk gebruikt om kanker op te sporen in mammogrambeelden. Zelfs als dit machine-learningmodel goed lijkt te presteren, zou het zich kunnen concentreren op beeldkenmerken die per ongeluk gecorreleerd zijn met tumoren, zoals een watermerk of tijdstempel, in plaats van op werkelijke tekenen van tumoren.

Om deze modellen te testen, gebruiken onderzoekers 'feature-attributiemethoden', technieken die hen zouden moeten vertellen welke delen van de afbeelding het belangrijkst zijn voor de voorspelling van het neurale netwerk. Maar wat als de attributiemethode functies mist die belangrijk zijn voor het model? Omdat de onderzoekers niet weten welke functies belangrijk zijn om mee te beginnen, kunnen ze niet weten dat hun evaluatiemethode niet effectief is.

Om dit probleem op te lossen, hebben MIT-onderzoekers een proces bedacht om de originele gegevens aan te passen, zodat ze zeker weten welke functies echt belangrijk zijn voor het model. Vervolgens gebruiken ze deze aangepaste dataset om te evalueren of methodes voor het toekennen van kenmerken die belangrijke kenmerken correct kunnen identificeren.

Ze vinden dat zelfs de meest populaire methoden vaak de belangrijke functies in een afbeelding missen, en sommige methoden slagen er nauwelijks in om zo goed te presteren als een willekeurige basislijn. Dit kan grote gevolgen hebben, vooral als neurale netwerken worden toegepast in situaties met een hoge inzet, zoals medische diagnoses. Als het netwerk niet goed werkt en pogingen om dergelijke afwijkingen op te vangen ook niet goed werken, hebben menselijke experts misschien geen idee dat ze worden misleid door het defecte model, legt hoofdauteur Yilun Zhou uit, een afgestudeerde elektrotechniek en informatica. in het Computer Science and Artificial Intelligence Laboratory (CSAIL).

"Al deze methoden worden op grote schaal gebruikt, vooral in scenario's met een zeer hoge inzet, zoals het detecteren van kanker op röntgenfoto's of CT-scans. Maar deze methoden voor het toekennen van kenmerken kunnen in de eerste plaats verkeerd zijn. Ze kunnen iets benadrukken dat dat niet doet' t correspondeert met het werkelijke kenmerk dat het model gebruikt om een ​​voorspelling te doen, wat vaak het geval bleek te zijn. Als u deze methoden voor kenmerktoewijzing wilt gebruiken om te rechtvaardigen dat een model correct werkt, kunt u beter zorgen voor de kenmerktoewijzing methode zelf werkt in de eerste plaats correct", zegt hij.

Zhou schreef de paper samen met Serena Booth, medestudente EECS, onderzoeker Marco Tulio Ribeiro van Microsoft Research en senior auteur Julie Shah, MIT-professor luchtvaart en ruimtevaart en directeur van de Interactive Robotics Group in CSAIL.

Focus op functies

Bij beeldclassificatie is elke pixel in een afbeelding een functie die het neurale netwerk kan gebruiken om voorspellingen te doen, dus er zijn letterlijk miljoenen mogelijke functies waarop het zich kan concentreren. Als onderzoekers een algoritme willen ontwerpen om aspirant-fotografen te helpen verbeteren, kunnen ze bijvoorbeeld een model trainen om foto's van professionele fotografen te onderscheiden van die van gewone toeristen. Dit model zou kunnen worden gebruikt om te beoordelen in hoeverre de amateurfoto's op de professionele lijken, en zelfs om specifieke feedback te geven over verbetering. Onderzoekers zouden willen dat dit model zich tijdens de training richt op het identificeren van artistieke elementen in professionele foto's, zoals kleurruimte, compositie en nabewerking. Maar het is gewoon zo dat een professioneel gemaakte foto waarschijnlijk een watermerk met de naam van de fotograaf bevat, terwijl er maar weinig toeristenfoto's zijn, dus het model zou gewoon de kortere weg kunnen nemen om het watermerk te vinden.

"Het is duidelijk dat we aspirant-fotografen niet willen vertellen dat een watermerk alles is wat je nodig hebt voor een succesvolle carrière, dus we willen ervoor zorgen dat ons model zich richt op de artistieke kenmerken in plaats van op de aanwezigheid van het watermerk. Het is verleidelijk om functies te gebruiken toeschrijvingsmethoden om ons model te analyseren, maar uiteindelijk is er geen garantie dat ze correct werken, aangezien het model artistieke kenmerken, het watermerk of andere kenmerken kan gebruiken", zegt Zhou.

"We weten niet wat die valse correlaties in de dataset zijn. Er kunnen zoveel verschillende dingen zijn die voor een persoon volledig onwaarneembaar zijn, zoals de resolutie van een afbeelding", voegt Booth eraan toe. "Zelfs als het voor ons niet waarneembaar is, kan een neuraal netwerk die functies waarschijnlijk eruit halen en gebruiken om te classificeren. Dat is het onderliggende probleem. We begrijpen onze datasets niet zo goed, maar het is ook onmogelijk om onze datasets te begrijpen zo goed."

De onderzoekers hebben de dataset aangepast om alle correlaties tussen de originele afbeelding en de datalabels te verzwakken, wat garandeert dat geen van de originele kenmerken meer belangrijk zal zijn.

Vervolgens voegen ze een nieuwe functie toe aan de afbeelding die zo duidelijk is dat het neurale netwerk erop moet focussen om zijn voorspelling te doen, zoals heldere rechthoeken van verschillende kleuren voor verschillende beeldklassen.

"We kunnen er zeker van zijn dat elk model dat echt veel vertrouwen heeft, zich moet concentreren op die gekleurde rechthoek die we erin plaatsen. Dan kunnen we zien of al deze methodes voor het toekennen van kenmerken zich haasten om die locatie te benadrukken in plaats van al het andere", zegt Zhou.

"Bijzonder alarmerende" resultaten

Ze pasten deze techniek toe op een aantal verschillende methodes voor het toekennen van kenmerken. Voor beeldclassificaties produceren deze methoden een zogenaamde saliency-kaart, die de concentratie van belangrijke kenmerken over het hele beeld laat zien. Als het neurale netwerk bijvoorbeeld afbeeldingen van vogels classificeert, kan de saliency-kaart aantonen dat 80 procent van de belangrijke kenmerken geconcentreerd zijn rond de snavel van de vogel.

Nadat ze alle correlaties in de afbeeldingsgegevens hadden verwijderd, manipuleerden ze de foto's op verschillende manieren, zoals het vervagen van delen van de afbeelding, het aanpassen van de helderheid of het toevoegen van een watermerk. Als de feature-attributiemethode correct werkt, zou bijna 100 procent van de belangrijke features zich moeten bevinden rond het gebied dat de onderzoekers hebben gemanipuleerd.

De resultaten waren niet bemoedigend. Geen van de methodes voor het toekennen van kenmerken kwam in de buurt van het doel van 100 procent, de meeste bereikten nauwelijks een willekeurig basisniveau van 50 procent en sommige presteerden in sommige gevallen zelfs slechter dan de basislijn. Dus hoewel de nieuwe functie de enige is die het model zou kunnen gebruiken om een ​​voorspelling te doen, halen de functie-attributiemethoden dat soms niet op.

"None of these methods seem to be very reliable, across all different types of spurious correlations. This is especially alarming because, in natural datasets, we don't know which of those spurious correlations might apply," Zhou says. "It could be all sorts of factors. We thought that we could trust these methods to tell us, but in our experiment, it seems really hard to trust them."

All feature-attribution methods they studied were better at detecting an anomaly than the absence of an anomaly. In other words, these methods could find a watermark more easily than they could identify that an image does not contain a watermark. So, in this case, it would be more difficult for humans to trust a model that gives a negative prediction.

The team's work shows that it is critical to test feature-attribution methods before applying them to a real-world model, especially in high-stakes situations.

"Researchers and practitioners may employ explanation techniques like feature-attribution methods to engender a person's trust in a model, but that trust is not founded unless the explanation technique is first rigorously evaluated," Shah says. "An explanation technique may be used to help calibrate a person's trust in a model, but it is equally important to calibrate a person's trust in the explanations of the model."

Moving forward, the researchers want to use their evaluation procedure to study more subtle or realistic features that could lead to spurious correlations. Another area of work they want to explore is helping humans understand saliency maps so they can make better decisions based on a neural network's predictions.