science >> Wetenschap >  >> Chemie

Neurale netwerken gebruiken om resultaten van organische chemie te voorspellen

De webgebaseerde tool is eenvoudig, en het model wordt van begin tot eind getraind, volledig data-gedreven en zonder hulp van het opvragen van een database of enige aanvullende externe informatie. Krediet:IBM

Al meer dan 200 jaar, de synthese van organische moleculen blijft een van de belangrijkste taken in de organische chemie. Het werk van chemici heeft wetenschappelijke en commerciële implicaties die variëren van de productie van aspirine tot die van nylon. Nog, Er is weinig gedaan om eeuwenoude praktijken drastisch te veranderen en een nieuw tijdperk van productiviteit mogelijk te maken op basis van baanbrekende kunstmatige intelligentie (AI) wetenschap en technologieën.

De uitdaging voor organisch chemici op gebieden als chemie, materiaal kunde, olie en gas, en life sciences is dat er honderdduizenden reacties zijn en, terwijl het beheersbaar is om er een paar dozijn te onthouden op een smal specialistisch gebied, het is onmogelijk om een ​​deskundige generalist te zijn.

Om dit aan te pakken vroegen we ons af, kunnen we deep learning en kunstmatige intelligentie gebruiken om reacties van organische verbindingen te voorspellen?

Eerst, sinds we techniek en materiaalwetenschappen hebben gestudeerd, maar geen organische chemie, we moesten de boeken raken. Het duurde niet lang voordat we overal organische chemie begonnen te zien - 's ochtends, middag en nacht. Atomen verschenen in plaats van letters, moleculen gematerialiseerd uit woorden en, dan, er gebeurde iets ongelooflijks:een idee was geboren.

We realiseerden ons dat datasets voor organische chemie en taaldatasets veel gemeen hebben:ze zijn beide afhankelijk van grammatica, op lange afstand afhankelijkheden, en een klein deeltje of woord als 'niet' kan de hele betekenis van een zin veranderen, net zoals de stereochemie van thalidomide een medicijn of een dodelijk gif kan maken.

Krediet:IBM

Als niet-moedertaalsprekers van het Engels zijn we allebei bekend met online vertaaltools, die wonderen waren bij het omzetten van Engels in Frans, en Duits naar Engels, dus waarom zou je ze niet proberen te gebruiken om willekeurige chemicaliën om te zetten in functionele verbindingen?

Op de NIPS 2017-conferentie presenteren we onze resultaten:een webgebaseerde app die het idee heeft om organische chemie te relateren aan een taal en state-of-the-art neurale machinevertalingsmethoden toepast om van het ontwerpen van materialen naar het genereren van producten te gaan met behulp van sequentie- to-sequence (seq2seq) modellen.

Chemie 101

Terug op de middelbare school, we moesten met de hand de zeshoeken en vijfhoeken tekenen en alle verschillende lijnen die bindingen van organische moleculen vertegenwoordigen. Nu hebben we een systeem naar voren gebracht dat exact dezelfde weergave heeft en kan voorspellen hoe moleculen binnen een klik zullen reageren.

De algemene tool is eenvoudig, en het model wordt van begin tot eind getraind, volledig data-gedreven en zonder hulp van het opvragen van een database of enige aanvullende externe informatie. Met deze aanpak, we presteren beter dan de huidige oplossingen met behulp van hun eigen trainings- en testsets door een top-1-nauwkeurigheid van 80,3 procent te behalen en een eerste score van 65,4 procent te behalen op een luidruchtige dataset met enkelvoudige productreacties die is geëxtraheerd uit Amerikaanse patenten.

Met behulp van SMILES, dit molecuul wordt vertaald in BrCCOC1OCCCC1. Krediet:IBM

Het geheim achter onze tool is wat een vereenvoudigd moleculaire invoerlijninvoersysteem of SMILES wordt genoemd. SMILES vertegenwoordigt een molecuul als een opeenvolging van karakters. Bijvoorbeeld, de afbeelding rechts, wordt BrCCOC1OCCCC1.

We hebben ons model getraind met behulp van een open beschikbare dataset voor chemische reacties, wat overeenkomt met 1 miljoen patentreacties.

In de toekomst, we willen het model verbeteren en onze nauwkeurigheid verbeteren door onze dataset uit te breiden. Momenteel zijn onze gegevens ontleend aan informatie die openbaar beschikbaar is in online gepubliceerde Amerikaanse patenten, maar er is geen reden waarom de tool niet zou kunnen worden getraind op gegevens uit andere bronnen, zoals scheikundeboeken en wetenschappelijke publicaties.

We zijn ook van plan om deze tool begin 2018 gratis beschikbaar te stellen in de cloud.

Meld u aan op www.zurich.ibm.com/foundintranslation om een ​​melding te ontvangen wanneer de webtool gereed is.