Wetenschap
Overzicht van MMACE. De input is een te voorspellen molecuul. De chemische ruimte wordt uitgebreid en geclusterd. Counterfactuals worden geselecteerd uit clusters om een beknopte verklaring te vinden voor de voorspelling van basenmoleculen. Krediet:Chemische Wetenschap (2022). DOI:10.1039/D1SC05259D
Wetenschappers vertrouwen in toenemende mate op modellen die zijn getraind met machine learning om oplossingen te bieden voor complexe problemen. Maar hoe weten we dat de oplossingen betrouwbaar zijn als de complexe algoritmen die de modellen gebruiken niet gemakkelijk kunnen worden ondervraagd of hun beslissingen niet aan mensen kunnen uitleggen?
Dat vertrouwen is vooral cruciaal bij het ontdekken van medicijnen, bijvoorbeeld waar machinaal leren wordt gebruikt om miljoenen potentieel giftige verbindingen te sorteren om te bepalen welke veilige kandidaten voor farmaceutische medicijnen kunnen zijn.
"Er zijn enkele spraakmakende ongelukken geweest in de informatica waarbij een model dingen vrij goed kon voorspellen, maar de voorspellingen waren niet gebaseerd op iets zinnigs", zegt Andrew White, universitair hoofddocent chemische technologie aan de Universiteit van Rochester, in een interview met Chemistry World.
White en zijn lab hebben een nieuwe "contrafeitelijke" methode ontwikkeld, beschreven in Chemical Science , dat kan worden gebruikt met elk op moleculaire structuur gebaseerd machine learning-model om beter te begrijpen hoe het model tot een conclusie is gekomen.
Counterfactuals kunnen onderzoekers vertellen "de kleinste verandering in de kenmerken die de voorspelling zouden veranderen", zegt hoofdauteur Geemi Wellawatte, een Ph.D. student in het laboratorium van White. "Met andere woorden, een counterfactual is een voorbeeld dat zo dicht mogelijk bij het origineel ligt, maar met een andere uitkomst."
Counterfactuals kunnen onderzoekers helpen om snel vast te stellen waarom een model een voorspelling heeft gedaan en of deze geldig is.
Het artikel identificeert drie voorbeelden van hoe de nieuwe methode, genaamd MMACE (Molecular Model Agonistic Counterfactual Explanations), kan worden gebruikt om uit te leggen waarom:
Het lab moest enkele grote uitdagingen overwinnen bij de ontwikkeling van MMACE. Ze hadden een methode nodig die kon worden aangepast aan het brede scala aan machinale leermethoden die in de chemie worden gebruikt. Bovendien was het zoeken naar het meest vergelijkbare molecuul voor een bepaald scenario ook een uitdaging vanwege het enorme aantal mogelijke kandidaat-moleculen.
Van links:PhD-student Geemi Wellawatte, Andrew White, universitair hoofddocent chemische technologie, en Aditi Seshadri '22 in Wegmans Hall. White's lab heeft een manier ontwikkeld om de voorspellingen van machine learning-modellen die worden gebruikt bij het ontdekken van geneesmiddelen te verifiëren met behulp van counterfactuals. Krediet:Universiteit van Rochester/J. Adam Fenster
Medeauteur Aditi Seshadri in het laboratorium van White hielp dat probleem op te lossen door de groep voor te stellen het STONED-algoritme (Superfast traversal, optimalisatie, nieuwigheid, verkenning en ontdekking) aan te passen, ontwikkeld aan de Universiteit van Toronto. STONED genereert op efficiënte wijze vergelijkbare moleculen, de brandstof voor counterfactual generatie. Seshadri is een niet-gegradueerde onderzoeker in het laboratorium van White en kon helpen bij het project via een zomeronderzoeksprogramma in Rochester genaamd 'Discover'.
White zegt dat zijn team MMACE blijft verbeteren, bijvoorbeeld door andere databases uit te proberen in hun zoektocht naar de meest vergelijkbare moleculen, en door de definitie van moleculaire gelijkenis te verfijnen. + Verder verkennen
Wetenschap © https://nl.scienceaq.com