science >> Wetenschap >  >> Chemie

Het ontwerp van moleculen automatiseren om de ontwikkeling van geneesmiddelen te versnellen

MIT-onderzoekers hebben een machine-learningmodel ontwikkeld dat molecuulkandidaten voor therapieën beter selecteert, terwijl ook geautomatiseerde modificatie van de moleculaire structuur mogelijk is voor een hogere potentie. De innovatie heeft potentieel om de ontwikkeling van geneesmiddelen te versnellen. Krediet:Massachusetts Institute of Technology

Het ontwerpen van nieuwe moleculen voor geneesmiddelen is in de eerste plaats een handmatige, tijdrovend proces dat foutgevoelig is. Maar MIT-onderzoekers hebben nu een stap gezet om het ontwerpproces volledig te automatiseren, wat de zaken drastisch zou kunnen versnellen en betere resultaten zou opleveren.

Het ontdekken van geneesmiddelen is afhankelijk van leadoptimalisatie. In dit proces, chemici selecteren een doelmolecuul ("lead") waarvan bekend is dat het een specifieke ziekte kan bestrijden, pas vervolgens de chemische eigenschappen aan voor een hogere potentie en andere factoren.

Vaak, scheikundigen gebruiken deskundige kennis en voeren handmatige aanpassingen van moleculen uit, functionele groepen - atomen en bindingen die verantwoordelijk zijn voor specifieke chemische reacties - één voor één optellen en aftrekken. Zelfs als ze systemen gebruiken die optimale chemische eigenschappen voorspellen, chemici moeten nog steeds elke wijzigingsstap zelf uitvoeren. Dit kan uren duren voor elke iteratie en kan nog steeds geen geldig kandidaat-geneesmiddel opleveren.

Onderzoekers van MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) en Department of Electrical Engineering and Computer Science (EECS) hebben een model ontwikkeld dat kandidaten voor loodmoleculen beter selecteert op basis van gewenste eigenschappen. Het wijzigt ook de moleculaire structuur die nodig is om een ​​hogere potentie te bereiken, terwijl ervoor wordt gezorgd dat het molecuul nog steeds chemisch geldig is.

Het model neemt in feite moleculaire structuurgegevens als invoer en maakt direct moleculaire grafieken - gedetailleerde weergaven van een moleculaire structuur, met knooppunten die atomen vertegenwoordigen en randen die bindingen vertegenwoordigen. Het splitst die grafieken op in kleinere clusters van geldige functionele groepen die het gebruikt als "bouwstenen" die het helpen om moleculen nauwkeuriger te reconstrueren en beter te modificeren.

"De motivatie hierachter was om het inefficiënte menselijke modificatieproces van het ontwerpen van moleculen te vervangen door geautomatiseerde iteratie en de validiteit van de moleculen die we genereren te verzekeren, " zegt Wengong Jin, een doctoraat student in CSAIL en hoofdauteur van een paper waarin het model wordt beschreven dat wordt gepresenteerd op de 2018 International Conference on Machine Learning in juli.

Bij Jin op het papier staan ​​Regina Barzilay, de Delta Electronics Professor bij CSAIL en EECS en Tommi S. Jaakkola, de Thomas Siebel hoogleraar elektrotechniek en computerwetenschappen in CSAIL, EECS, en bij het Instituut voor Data, systemen, en Maatschappij.

Het onderzoek werd uitgevoerd als onderdeel van het Machine Learning for Pharmaceutical Discovery and Synthesis Consortium tussen MIT en acht farmaceutische bedrijven, aangekondigd in mei. Het consortium identificeerde lead-optimalisatie als een belangrijke uitdaging bij het ontdekken van geneesmiddelen.

"Vandaag, het is echt een ambacht, waarvoor veel bekwame scheikundigen nodig zijn om te slagen, en dat willen we verbeteren, " zegt Barzilay. "De volgende stap is om deze technologie van de academische wereld te gebruiken voor echte farmaceutische ontwerpcases, en aantonen dat het menselijke scheikundigen kan helpen bij het doen van hun werk, wat een uitdaging kan zijn."

"Het automatiseren van het proces brengt ook nieuwe uitdagingen op het gebied van machine learning met zich mee, "zegt Jaakkola. "Leren vertellen, aanpassen, en het genereren van moleculaire grafieken drijft nieuwe technische ideeën en methoden aan."

Moleculaire grafieken genereren

Systemen die het ontwerp van moleculen proberen te automatiseren, zijn de afgelopen jaren opgedoken, maar hun probleem is validiteit. Die systemen, Jin zegt, genereren vaak moleculen die ongeldig zijn volgens chemische regels, en ze slagen er niet in om moleculen met optimale eigenschappen te produceren. Dit maakt in wezen volledige automatisering van het ontwerp van moleculen onhaalbaar.

Deze systemen draaien op lineaire notaties van moleculen, zogenaamde "vereenvoudigde moleculaire invoerlijninvoersystemen, " of GLIMLACH, waar lange rijen letters, nummers, en symbolen vertegenwoordigen individuele atomen of bindingen die kunnen worden geïnterpreteerd door computersoftware. Als het systeem een ​​loodmolecuul wijzigt, het breidt zijn tekenreeksrepresentatie symbool voor symbool uit - atoom voor atoom, en binding voor binding - totdat het een laatste SMILES-reeks genereert met een hogere potentie van een gewenste eigenschap. Uiteindelijk, het systeem kan een laatste SMILES-tekenreeks produceren die geldig lijkt onder de SMILES-grammatica, maar is feitelijk ongeldig.

De onderzoekers lossen dit probleem op door een model te bouwen dat rechtstreeks op moleculaire grafieken draait, in plaats van SMILES-strings, die efficiënter en nauwkeuriger kunnen worden gewijzigd.

Het model wordt aangedreven door een aangepaste, variabele auto-encoder - een neuraal netwerk dat een invoermolecuul 'codeert' in een vector, wat in feite een opslagruimte is voor de structurele gegevens van het molecuul, en vervolgens "decodeert" die vector naar een grafiek die overeenkomt met het invoermolecuul.

In de coderingsfase, het model splitst elke moleculaire grafiek op in clusters, of "subgrafieken, " die elk een specifieke bouwsteen vertegenwoordigen. Dergelijke clusters worden automatisch geconstrueerd door een gemeenschappelijk machine-learningconcept, boomdecompositie genoemd, waarbij een complexe grafiek wordt afgebeeld in een boomstructuur van clusters - "wat een steiger geeft van de originele grafiek, "zegt Jin.

Zowel de steigerboomstructuur als de moleculaire grafiekstructuur zijn gecodeerd in hun eigen vectoren, waarbij moleculen op overeenkomst zijn gegroepeerd. Dit maakt het vinden en wijzigen van moleculen een eenvoudigere taak.

In de decoderingsfase, het model reconstrueert de moleculaire grafiek op een "grof-naar-fijn" manier - waarbij de resolutie van een afbeelding met een lage resolutie geleidelijk wordt verhoogd om een ​​meer verfijnde versie te creëren. Het genereert eerst de boomgestructureerde steiger, en assembleert vervolgens de bijbehorende clusters (knooppunten in de boom) tot een coherente moleculaire grafiek. Dit zorgt ervoor dat de gereconstrueerde moleculaire grafiek een exacte replicatie is van de oorspronkelijke structuur.

Voor leadoptimalisatie, het model kan vervolgens leadmoleculen wijzigen op basis van een gewenste eigenschap. Dat doet het met behulp van een voorspellingsalgoritme dat elk molecuul scoort met een potentiewaarde van die eigenschap. In de krant, bijvoorbeeld, de onderzoekers zochten moleculen met een combinatie van twee eigenschappen:hoge oplosbaarheid en synthetische toegankelijkheid.

Gegeven een gewenste eigenschap, het model optimaliseert een leadmolecuul door het voorspellingsalgoritme te gebruiken om zijn vector te wijzigen - en, daarom, structuur - door de functionele groepen van het molecuul te bewerken om een ​​hogere potentiescore te behalen. Het herhaalt deze stap voor meerdere iteraties, totdat het de hoogst voorspelde potentiescore vindt. Vervolgens, het model decodeert uiteindelijk een nieuw molecuul van de bijgewerkte vector, met gewijzigde structuur, door alle bijbehorende clusters samen te stellen.

Geldig en krachtiger

De onderzoekers trainden hun model op 250, 000 moleculaire grafieken uit de ZINC-database, een verzameling 3D-moleculaire structuren beschikbaar voor openbaar gebruik. Ze testten het model op taken om geldige moleculen te genereren, vind de beste loodmoleculen, en ontwerp nieuwe moleculen met verhoogde potenties.

Bij de eerste proef het model van de onderzoekers genereerde 100 procent chemisch geldige moleculen uit een monsterverdeling, vergeleken met SMILES-modellen die 43 procent geldige moleculen uit dezelfde distributie genereerden.

De tweede test omvatte twee taken. Eerst, het model doorzocht de hele verzameling moleculen om het beste loodmolecuul te vinden voor de gewenste eigenschappen - oplosbaarheid en synthetische toegankelijkheid. Bij die taak het model vond een loodmolecuul met een 30 procent hogere potentie dan traditionele systemen. De tweede taak omvatte het modificeren van 800 moleculen voor een hogere potentie, maar zijn structureel vergelijkbaar met het hoofdmolecuul. Daarbij, het model creëerde nieuwe moleculen, sterk lijkt op de structuur van de lead, met een gemiddelde verbetering van meer dan 80 procent in potentie.

De onderzoekers willen het model vervolgens op meer eigenschappen testen, voorbij oplosbaarheid, die therapeutisch relevanter zijn. Dat, echter, meer gegevens nodig. "Farmaceutische bedrijven zijn meer geïnteresseerd in eigenschappen die biologische doelwitten bestrijden, maar daar hebben ze minder gegevens over. Een uitdaging is het ontwikkelen van een model dat kan werken met een beperkte hoeveelheid trainingsgegevens, "zegt Jin.

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.