science >> Wetenschap >  >> Elektronica

Nieuwe AI-aanpak overbrugt de kleine datakloof die deep learning-benaderingen kan belemmeren

Het deep learning-netwerk van PNNL pakt moeilijke scheikundeproblemen aan met behulp van een vooropleiding. Krediet:Timothy Holland/PNNL

Wetenschappers hebben een diep neuraal netwerk ontwikkeld dat een probleem omzeilt dat pogingen heeft verijdeld om kunstmatige intelligentie toe te passen om complexe chemie aan te pakken - een tekort aan nauwkeurig gelabelde chemische gegevens. De nieuwe methode geeft wetenschappers een extra hulpmiddel om deep learning toe te passen om de ontdekking van geneesmiddelen te onderzoeken, nieuwe materialen voor productie, en een hele reeks andere toepassingen.

Het voorspellen van chemische eigenschappen en reacties tussen miljoenen en miljoenen verbindingen is een van de meest ontmoedigende taken waarmee wetenschappers worden geconfronteerd. Er is geen bron met volledige informatie waaruit een diepgaand leerprogramma zou kunnen putten. Gebruikelijk, zo'n tekort aan een enorme hoeveelheid schone gegevens is een showstopper voor een deep learning-project.

Wetenschappers van het Pacific Northwest National Laboratory van het Department of Energy ontdekten een manier om het probleem te omzeilen. Ze creëerden een pre-trainingssysteem, een soort snelle tutorial waarin ze het programma uitrusten met wat basisinformatie over scheikunde, toerusten om te leren van zijn ervaringen, daag het programma dan uit met enorme datasets.

Het werk werd gepresenteerd op KDD2018, de conferentie over kennisontdekking en datamining, in Londen.

katten, honden, en schone gegevens

Voor deep learning-netwerken, overvloedige en duidelijke gegevens zijn lange tijd de sleutel tot succes geweest. In de kat versus hond-dialoog die discussies over AI-systemen doorspekt, onderzoekers erkennen het belang van "gelabelde gegevens - een foto van een kat is gemarkeerd als een kat, een hond is gemarkeerd als een hond, enzovoort. Veel hebben, veel foto's van katten en honden, duidelijk als zodanig gemarkeerd, is een goed voorbeeld van het soort data dat AI-wetenschappers graag hebben. De foto's bieden duidelijke gegevenspunten die een neuraal netwerk kan gebruiken om van te leren wanneer het katten van honden begint te onderscheiden.

Krediet:Pacific Northwest National Laboratory

Maar chemie is complexer dan katten van honden scheiden. Honderden factoren beïnvloeden de promiscuïteit van een molecuul, en duizenden interacties kunnen in een flits van een seconde plaatsvinden. AI-onderzoekers in de chemie worden vaak geconfronteerd met kleine maar grondige datasets of enorme maar inconsistente datasets, denk aan 100 duidelijke afbeeldingen van chihuahua's of 10 miljoen afbeeldingen van harige klodders. Geen van beide is ideaal of zelfs alleen werkbaar.

Dus de wetenschappers creëerden een manier om de kloof te overbruggen, het combineren van het beste van "slanke maar goede gegevens" met "grote maar slechte gegevens".

Het team, onder leiding van voormalig PNNL-wetenschapper Garrett Goh, gebruikte een techniek die bekend staat als op regels gebaseerd leren onder toezicht. Wetenschappers wijzen het neurale netwerk naar een enorme opslagplaats van chemische gegevens die bekend staat als ChEMBL, en ze genereren op regels gebaseerde labels voor elk van deze vele moleculen, bijvoorbeeld het berekenen van de massa van het molecuul. Het neurale netwerk kraakt door de ruwe data, leerprincipes van scheikunde die het molecuul relateren aan elementaire chemische vingerafdrukken. Door het neurale netwerk te gebruiken dat is getraind op de op regels gebaseerde gegevens, de wetenschappers presenteerden het met de kleine, maar van hoge kwaliteit, dataset met de laatste te voorspellen eigenschappen.

De vooropleiding wierp zijn vruchten af. Het programma, genaamd ChemNet, een niveau van kennis en precisie hebben bereikt dat even nauwkeurig of nauwkeuriger is dan de huidige beste deep learning-modellen die beschikbaar zijn bij het analyseren van moleculen op hun toxiciteit, hun niveau van biochemische activiteit gerelateerd aan HIV, en hun niveau van een chemisch proces dat bekend staat als solvatatie. Het programma deed dit met veel minder gelabelde gegevens dan zijn tegenhangers en behaalde de resultaten met minder berekeningen, wat zich vertaalt in snellere prestaties.