Wetenschap
Krediet:CC0 Publiek Domein
Stel je voor dat je Facebook-feed een prikkelende puzzel vormt. Je krijgt een paar fragmenten te zien over een persoon:oogkleur, haarkleur, leeftijd, en lengte - en heb slechts één minuut om de naam en identiteit van de persoon te kiezen uit honderden profielen. Als je dat doet, je wint $ 100 miljoen.
Maar u kent slechts 10 van deze mensen bij naam. Voor de anderen, je hebt maar een gebrek aan gegevens om mee te werken. Sommige zijn jong en sommige zijn niet zo jong. Sommige zijn blond en sommige zijn brunette. Sommige namen klinken je bekend in de oren, maar je weet niet precies hoe je ze kent.
Dit type scenario - een schijnbaar onmogelijke taak met een enorme uitbetaling - confronteert PNNL-onderzoekers die metabolomics bestuderen. Dat is de studie van kleine moleculen die ten grondslag liggen aan en informeren over elk aspect van ons leven, inclusief energieproductie, het lot van de planeet, en onze gezondheid.
Wetenschappers schatten dat minder dan 1 procent van de kleine moleculen bekend is. Een typische in de handel verkrijgbare metabolomics-bibliotheek heeft misschien 5, 000 verbindingen, maar wetenschappers weten dat er miljarden meer zijn.
Hoe 'identificeren' ze iets waarvan ze zo weinig weten? Het is alsof je Galileo vraagt om sterren in de verre ruimte te identificeren die onmogelijk te detecteren waren toen hij meer dan 400 jaar geleden een van de eerste telescopen gebruikte.
Voer DarkChem in, een onderzoeksproject gefinancierd door PNNL's Deep Learning for Scientific Discovery Agile Investment. Een team onder leiding van Ryan Renslow brengt kunstmatige intelligentie naar de tafel om de enorme, onbekend landschap van metabolieten die onderzoekers als Tom Metz, die de metabolomics-inspanningen van PNNL leidt.
"Direct, we skimmen gewoon wat potentieel kenbaar is en nemen afscheid van zeer interessante gegevens omdat we de overgrote meerderheid van de metabolieten die onze technologie detecteert niet kunnen identificeren, " zei Metz. "Deep learning biedt een nieuwe manier om de puzzel op te lossen."
Renslow en collega's Sean Colby en Jamie Nunez hebben deep learning-principes overgenomen die vaak worden gebruikt in toepassingen zoals taalvertaling en hebben deze toegepast op deze donkere materie van de moleculaire wereld.
De eerste resultaten zijn opmerkelijk:het DarkChem-netwerk van het team kan een belangrijk kenmerk van een molecuul in milliseconden berekenen en met 13 procent minder fouten, vergeleken met 40 uur op een supercomputer waarop PNNL's vlaggenschip kwantumchemiesoftware draait, NWChem.
"We waren geschokt over hoe goed DarkChem het deed, ' zei Renslow.
Het netwerk doorzoekt niet alleen gegevens om resultaten te verzamelen. Liever, het netwerk maakt gebruik van kunstmatige intelligentie. DarkChem is zo ontwikkeld dat het nieuwe dingen kan ontdekken die voor de mens nog onbekend zijn.
Van voetbal en botsingsdwarsdoorsnede
In dit geval, het team heeft het programma getraind om een chemische eigenschap die bekend staat als botsingsdoorsnede (CCS) te begrijpen en te voorspellen. Terwijl CCS zich voordoet als een intimiderend wetenschappelijk acroniem, iedereen die een voetbalwedstrijd heeft gezien, heeft zoiets als CCS in actie gezien.
Stel je een ballendrager voor die door tegenstanders heen slaat. Een kleinere speler heeft mogelijk minder botsingen, maar als ze in botsing komen met een tegenstander, het effect is anders dan wanneer een hulk-achtige Marshawn Lynch in beest-modus gaat en verschillende schokken afschudt.
Je leert veel over voetballers door ze tegen elkaar aan te zien botsen.
Op dezelfde manier, het volgen van botsingen tussen metaboliet-ionen die reizen door een laboratoriuminstrument gevuld met gasmoleculen, vertelt wetenschappers veel over metaboliet-ionstructuren - hun grootte, hun massa, en andere kenmerken. CCS is de wiskundige maat voor die actie, en het staat centraal bij het ontsluiten van de chemische structuur in de gasfase - de echte "identificatie" - van een molecuul.
Renslow en zijn team hebben DarkChem getraind om CCS voor chemische structuren te berekenen, draaide het toen los om de berekening te maken voor meer dan 50 miljoen verbindingen - een deel van de bibliotheek van PubChem. Het programma loste die taak in een handomdraai op.
Hoewel dat een veelbelovende stap voorwaarts is, het team is meer enthousiast over de implicaties voor al die nog niet-geïdentificeerde kleine moleculen.
Het netwerk kan zowel voorwaarts als achterwaarts lopen, dat wil zeggen:het kan de CCS van een molecuul oplossen en andere eigenschappen voorspellen, maar het kan ook nieuwe chemische structuren genereren op basis van de eigenschappen waarnaar men op zoek is. Bijvoorbeeld, Het team van Renslow heeft DarkChem gebruikt om verschillende nieuwe chemische structuren naar voren te brengen die de NMDA-receptor kunnen beïnvloeden, die betrokken is bij het geheugen en andere belangrijke hersenfuncties.
Het netwerk onthoudt niet alleen gegevens. In feite, het team voegt opzettelijk wat numerieke vaagheid toe aan de uitdagingen waarmee het netwerk wordt geconfronteerd om te voorkomen dat het memoriseert.
"Het is alsof je een computer leert een hond te herkennen, "zei Renslow. "Het kan gewoon de foto onthouden, maar u wilt dat het netwerk verschillende honden kan herkennen, dus je zou de foto ondersteboven kunnen draaien, rek het een beetje uit, zijn kleuren veranderen. Je verstoort het beeld, zodat het programma wordt gedwongen om te generaliseren en te vertrouwen op de kennis en regels die het heeft geleerd."
Het netwerk leren leren
Om het netwerk te maken, het team gebruikte een vorm van kunstmatige intelligentie genaamd transfer learning, waarbij het netwerk leert van de ene dataset en vervolgens zijn kennis toepast op een andere dataset. De training bestond voornamelijk uit drie stappen:
Het programma doorzocht meer dan 50 miljoen bekende moleculen in PubChem, de basis van scheikunde leren en chemische structuren wiskundig weergeven. Maar de database miste informatie over CCS, een cruciale meting voor het begrijpen van metabolieten.
Vervolgens, het team heeft DarkChem blootgesteld aan een door PNNL ontwikkelde set computationele CCS-gegevens, ongeveer 700, 000 moleculen. Dit hielp het programma te trainen in het koppelen van de algemene informatie over de chemische structuur aan CCS.
Eindelijk, het team verfijnde het netwerk met behulp van een kleine, robuuste dataset van ongeveer 1, 000 chemische structuren waarvan de CCS-metingen zijn bepaald door nauwgezet werk in het laboratorium.
De mogelijkheid om CCS te berekenen voor onbekende moleculen - moleculen waarvan het enige spoor van bestaan een dunne lijn is van een massaspectrometrie-experiment - voegt een belangrijke functie toe om wetenschappers te helpen de ene metaboliet van de andere te onderscheiden. Om een licht te werpen op donkere moleculaire materie.
"Elke dimensie die je toevoegt, geeft je een beter oplossend vermogen, " zei Colby, die helpt bij het zoeken naar andere mogelijke moleculaire kenmerken die DarkChem kan analyseren, zoals infraroodspectra, fragmentatie patronen, en voor oplosmiddelen toegankelijke oppervlaktegegevens.
Het is analoog aan het verbeteren van ons vermogen om duizenden kennissen op Facebook te identificeren.
"Je kunt zeggen dat iemand een man is en een bril draagt, "zei Renslow. "Maar als je eraan kunt toevoegen dat hij 54 jaar oud is en in een rode Mercedes rijdt, je beperkt de kandidaten.
"Bij metabolieten is het niet veel anders. We blijven kenmerken toevoegen die we kunnen meten, en uiteindelijk is er maar één molecuul in het universum dat past bij die combinatie van gegevens, " hij voegde toe.
Wetenschap © https://nl.scienceaq.com