science >> Wetenschap >  >> Chemie

Machine-learning methode creëert een leerbare chemische grammatica om synthetiseerbare monomeren en polymeren te bouwen

Krediet:Pixabay/CC0 Publiek domein

Chemische ingenieurs en materiaalwetenschappers zijn voortdurend op zoek naar het volgende revolutionaire materiaal, de chemische stof en het medicijn. De opkomst van machine learning-benaderingen versnelt het ontdekkingsproces, dat anders jaren zou kunnen duren. "Idealiter is het doel om een ​​machine learning-model te trainen op een paar bestaande chemische monsters en het vervolgens in staat te stellen zoveel mogelijk produceerbare moleculen van dezelfde klasse te produceren, met voorspelbare fysieke eigenschappen", zegt Wojciech Matusik, hoogleraar elektrotechniek. en computerwetenschappen aan het MIT. "Als je al deze componenten hebt, kun je nieuwe moleculen bouwen met optimale eigenschappen, en je weet ook hoe je ze moet synthetiseren. Dat is de algemene visie die mensen in die ruimte willen bereiken."

De huidige technieken, voornamelijk deep learning, vereisen echter uitgebreide datasets voor trainingsmodellen, en veel klassespecifieke chemische datasets bevatten een handvol voorbeeldverbindingen, waardoor hun vermogen om te generaliseren en fysieke moleculen te genereren die in de echte wereld zouden kunnen worden gemaakt, wordt beperkt.

Nu pakt een nieuw artikel van onderzoekers van MIT en IBM dit probleem aan met behulp van een generatief grafiekmodel om nieuwe synthetiseerbare moleculen te bouwen binnen dezelfde chemische klasse als hun trainingsgegevens. Om dit te doen, behandelen ze de vorming van atomen en chemische bindingen als een grafiek en ontwikkelen ze een grafiekgrammatica - een taalkundige analogie van systemen en structuren voor woordordening - die een reeks regels bevat voor het bouwen van moleculen, zoals monomeren en polymeren. Met behulp van de grammatica- en productieregels die zijn afgeleid uit de trainingsset, kan het model niet alleen zijn voorbeelden reverse-engineeren, maar kan het ook op een systematische en data-efficiënte manier nieuwe verbindingen maken. "We hebben in feite een taal gebouwd om moleculen te maken", zegt Matusik. "Deze grammatica is in wezen het generatieve model."

Matusik's co-auteurs zijn onder meer MIT-afgestudeerde studenten Minghao Guo, de hoofdauteur, en Beichen Li, evenals Veronika Thost, Payal Das en Jie Chen, onderzoeksmedewerkers bij IBM Research. Matusik, Thost en Chen zijn aangesloten bij het MIT-IBM Watson AI Lab. Hun methode, die ze data-efficient graph grammatica (DEG) hebben genoemd, zal worden gepresenteerd op de International Conference on Learning Representations.

"We willen deze grammaticale representatie gebruiken voor het genereren van monomeer en polymeer, omdat deze grammatica verklaarbaar en expressief is", zegt Guo. "Met slechts een paar productieregels kunnen we vele soorten structuren genereren."

Een moleculaire structuur kan worden gezien als een symbolische weergave in een grafiek - een reeks atomen (knooppunten) die met elkaar zijn verbonden door chemische bindingen (randen). Bij deze methode laten de onderzoekers het model de chemische structuur nemen en een substructuur van het molecuul tot één knoop instorten; dit kunnen twee atomen zijn die verbonden zijn door een binding, een korte reeks gebonden atomen of een ring van atomen. Dit wordt herhaaldelijk gedaan, waarbij de productieregels gaandeweg worden gemaakt, totdat er een enkel knooppunt overblijft. De regels en grammatica kunnen dan in omgekeerde volgorde worden toegepast om de trainingsset helemaal opnieuw te creëren of gecombineerd in verschillende combinaties om nieuwe moleculen van dezelfde chemische klasse te produceren.

"Bestaande methoden voor het genereren van grafieken zouden achtereenvolgens één knoop of één rand produceren, maar we kijken naar structuren op een hoger niveau en in het bijzonder benutten we scheikundekennis, zodat we de individuele atomen en bindingen niet als de eenheid beschouwen. Dit vereenvoudigt het generatieproces en maakt het ook data-efficiënter om te leren", zegt Chen.

Verder optimaliseerden de onderzoekers de techniek zodat de bottom-up grammatica relatief eenvoudig en rechttoe rechtaan was, zodat het moleculen fabriceerde die gemaakt konden worden.

"Als we de volgorde van het toepassen van deze productieregels veranderen, krijgen we een ander molecuul; bovendien kunnen we alle mogelijkheden opsommen en er tonnen van genereren", zegt Chen. "Sommige van deze moleculen zijn geldig en sommige niet, dus het leren van de grammatica zelf is eigenlijk om een ​​minimale verzameling productieregels te bedenken, zodat het percentage moleculen dat daadwerkelijk kan worden gesynthetiseerd, wordt gemaximaliseerd." Terwijl de onderzoekers zich concentreerden op drie trainingssets van elk minder dan 33 monsters - acrylaten, ketenverlengers en isocyanaten - merkten ze op dat het proces op elke chemische klasse kan worden toegepast.

Om te zien hoe hun methode presteerde, testten de onderzoekers DEG tegen andere state-of-the-art modellen en technieken, kijkend naar percentages van chemisch geldige en unieke moleculen, diversiteit van de gecreëerde, succespercentage van retrosynthese en percentage moleculen die behoren tot de monomeerklasse van de trainingsgegevens.

"We laten duidelijk zien dat ons algoritme qua synthetiseerbaarheid en lidmaatschap met een zeer grote marge beter presteert dan alle bestaande methoden, terwijl het vergelijkbaar is voor sommige andere veelgebruikte statistieken", zegt Guo. Wat verder verbazingwekkend is aan ons algoritme, is dat we slechts ongeveer 0,15 procent van de originele dataset nodig hebben om zeer vergelijkbare resultaten te bereiken in vergelijking met de modernste benaderingen die trainen op tienduizenden monsters. Ons algoritme kan specifiek omgaan met het probleem van gegevensschaarste."

In de nabije toekomst is het team van plan om dit grammaticaleerproces op te schalen om grote grafieken te kunnen genereren en chemicaliën met gewenste eigenschappen te kunnen produceren en identificeren.

Verderop zien de onderzoekers veel toepassingen voor de DEG-methode, omdat deze aanpasbaar is en verder gaat dan het genereren van nieuwe chemische structuren, benadrukt het team. Een grafiek is een zeer flexibele weergave en veel entiteiten kunnen in deze vorm worden gesymboliseerd, bijvoorbeeld robots, voertuigen, gebouwen en elektronische circuits. "Ons doel is in wezen om onze grammatica op te bouwen, zodat onze grafische weergave breed kan worden gebruikt in veel verschillende domeinen", zegt Guo, omdat "DEG het ontwerp van nieuwe entiteiten en structuren kan automatiseren", zegt Chen. + Verder verkennen

Op zoek naar een grammatica van materialen om te helpen bij het ontdekken van katalysatoren

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.