science >> Wetenschap >  >> Chemie

Chemici gebruiken kunstmatige intelligentie om de toekomst (van chemische reacties) te voorspellen

Krediet:CC0 Publiek Domein

Om medicijnen te maken, scheikundigen moeten de juiste combinaties van chemicaliën vinden om de noodzakelijke chemische structuren te maken. Dit is ingewikkelder dan het klinkt, aangezien typische chemische reacties verschillende componenten gebruiken, en elke chemische stof die bij een reactie betrokken is, voegt een andere dimensie toe aan de berekeningen.

In een ideale wereld, scheikundigen zouden willen voorspellen welke combinatie van chemicaliën de hoogste opbrengst aan product zou opleveren en onbedoelde bijproducten of andere verliezen zouden vermijden, maar het voorspellen van de uitkomst van deze multidimensionale reacties is een uitdaging gebleken.

Een groep onderzoekers onder leiding van Abigail Doyle, de A. Barton Hepburn hoogleraar scheikunde aan de Princeton University, en Dr. Spencer Dreher van Merck Research Laboratories, heeft een manier gevonden om reactie-opbrengsten nauwkeurig te voorspellen, terwijl er maximaal vier reactiecomponenten worden gevarieerd, met behulp van een toepassing van kunstmatige intelligentie die bekend staat als machine learning. Ze hebben hun methode omgezet in software die ze beschikbaar hebben gesteld aan andere chemici. Ze publiceerden hun onderzoek op 15 februari in het tijdschrift Wetenschap .

"De software die we hebben ontwikkeld, kan voor elke reactie werken, elke ondergrond, " zei Doyle. "Het idee was om iemand deze tool te laten toepassen en er hopelijk met andere reacties op voort te bouwen."

Er worden enorme middelen en tijd besteed aan het maken van synthetische moleculen, vaak grotendeels ad hoc, ze zei. Met behulp van deze nieuwe software, scheikundigen kunnen op een goedkopere en efficiëntere manier hoogrenderende combinaties van chemicaliën en substraten identificeren.

"We hopen dat dit een waardevol hulpmiddel zal zijn bij het versnellen van de synthese van nieuwe medicijnen, " zei Derek Ahneman, die zijn scheikunde Ph.D. in het lab van Doyle in 2017 en werkt nu voor IBM.

"Veel van deze machine learning-algoritmen bestaan ​​al geruime tijd, " zei Jesús Estrada, een afgestudeerde student in Doyle's lab die heeft bijgedragen aan het onderzoek en de paper. "Echter, binnen de gemeenschap van synthetische organische chemie, we hebben echt geen gebruik gemaakt van de opwindende mogelijkheden die machine learning biedt."

"Als chemici, we zijn traditioneel afgeweken van multidimensionale analyse, " zei Doyle. "We kijken maar naar één variabele tegelijk, of een enkele set voorwaarden voor een reeks substraten."

Toen Ahneman Doyle vertelde dat hij machine learning wilde gebruiken om het multidimensionale probleem aan te pakken, ze moedigde hem aan. "Ik probeer altijd - vooral voor mijn meest getalenteerde studenten - om ze de vrije loop te laten in het laatste jaar van hun Ph.D., "zei ze. "Dit is het project dat hij me heeft voorgesteld."

Doyle en Ahneman wilden de reactieopbrengst modelleren terwijl ze vier verschillende reactiecomponenten wijzigden, een exponentieel moeilijkere onderneming dan het wijzigen van één variabele tegelijk.

"Aanvankelijk, we wisten dat er veel uitdagingen zouden zijn om te overwinnen, ' zei Ahneman. 'We wisten niet zeker of het wel mogelijk was.'

historisch, een obstakel voor het ontwikkelen van multidimensionale modellen is het verzamelen van voldoende gegevens over reactieopbrengsten om een ​​effectieve "trainingsset, " zei hij. Maar onlangs, Merck heeft robotsystemen uitgevonden die duizenden reacties in de orde van dagen kunnen uitvoeren.

Een andere uitdaging is het berekenen van kwantitatieve descriptoren voor elke chemische stof, gebruiken als input voor het model. Deze descriptoren zijn doorgaans één voor één berekend, wat onpraktisch zou zijn geweest vanwege het grote aantal chemische combinaties dat ze wilden gebruiken.

Ze overwonnen deze beperking door code te schrijven die een bestaand programma gebruikte, Spartaans, om descriptoren te berekenen en vervolgens te extraheren voor elke chemische stof die in het model wordt gebruikt.

Toen ze eenmaal hun kwantitatieve descriptoren hadden, ze probeerden verschillende statistische benaderingen. Eerst, ze gebruiken lineaire regressie, de industriestandaard, maar vond dat het de reactieopbrengst niet nauwkeurig kon voorspellen. Vervolgens onderzochten ze meerdere veelvoorkomende machine learning-modellen en ontdekten dat een genaamd "willekeurig bos" verrassend nauwkeurige opbrengstvoorspellingen opleverde.

Een willekeurig bosmodel werkt door willekeurig kleine steekproeven te selecteren uit de trainingsgegevensset en die steekproef te gebruiken om een ​​beslissingsboom te bouwen. Elke individuele beslisboom voorspelt vervolgens de opbrengst voor een bepaalde reactie, en vervolgens wordt het resultaat gemiddeld over de bomen om een ​​algemene opbrengstvoorspelling te genereren.

Een andere doorbraak kwam toen de onderzoekers ontdekten dat met willekeurige bossen, "reactieopbrengsten kunnen nauwkeurig worden voorspeld met behulp van de resultaten van 'slechts' honderden reacties (in plaats van duizenden), een nummer dat chemici zonder robots zelf kunnen uitvoeren, ' zei Ahneman.

Ze ontdekten verder dat willekeurige bosmodellen opbrengsten kunnen voorspellen voor chemische verbindingen die niet in de trainingsset zijn opgenomen.

"De gebruikte technieken zijn volledig state-of-the-art, " zei Chloé-Agathe Azencott, een machine learning-onderzoeker aan het Centre for Computational Biology van de Paris Science and Letters University, die niet bij het onderzoek betrokken was. "De correlatiegrafieken in de krant zijn goed genoeg dat ik denk dat we ons kunnen voorstellen dat we in de toekomst op deze voorspellingen kunnen vertrouwen, wat de noodzaak voor dure laboratoriumexperimenten zal beperken."

"Deze resultaten zijn opwindend, omdat ze suggereren dat deze methode kan worden gebruikt om de opbrengst te voorspellen voor reacties waarbij het uitgangsmateriaal nog nooit is gemaakt, die zou helpen het verbruik van chemicaliën te minimaliseren die tijdrovend zijn om te maken, " zei Ahneman. "Al met al, deze methodologie is veelbelovend voor (1) het voorspellen van de opbrengst voor reacties met behulp van nog niet gemaakte uitgangsmaterialen en (2) het voorspellen van de optimale omstandigheden voor een reactie met een bekend uitgangsmateriaal en product."

Nadat Ahneman zijn studie had afgerond, Estrada zette het onderzoek voort. Het doel was om software te maken die niet alleen toegankelijk was voor computerexperts zoals Ahneman en Estrada, maar ook voor de bredere gemeenschap van synthetische chemie, zei Doyle.

Ze legde uit hoe de software werkt:"Je tekent de structuren - de uitgangsmaterialen, katalysatoren, bases - en de software zal gedeelde descriptors tussen al deze vinden. Dat is jouw inbreng. Het resultaat is de opbrengst van de reacties. De machine learning koppelt al die descriptoren aan de opbrengsten, met het doel dat je in elke structuur kunt plaatsen en het zal je de uitkomst van de reactie vertellen.

"The idea is to help people navigate the multi-dimensional space where you can't intuit the outcomes, " said Doyle.