science >> Wetenschap >  >> Chemie

SMART:gezichtsherkenning voor moleculaire structuren

De SMART clusterkaart op basis van trainingsresultaat van 2, 054 HSQC-spectra meer dan 83, 000 iteraties, met inzetvakken die verschillende samengestelde klassen vertegenwoordigen die in de tekst worden besproken. Krediet:Universiteit van Californië - San Diego

Een interdisciplinair team van onderzoekers van de University of California San Diego heeft een methode ontwikkeld om de moleculaire structuren van natuurlijke producten te identificeren die aanzienlijk sneller en nauwkeuriger is dan bestaande methoden. De methode werkt als gezichtsherkenning voor moleculaire structuren:het gebruikt een stukje spectrale gegevens die uniek zijn voor elk molecuul en leidt het vervolgens door een diep lerend neuraal netwerk om het onbekende molecuul in een cluster van moleculen met vergelijkbare structuren te plaatsen.

Het nieuwe systeem heet "SMART, " wat staat voor Small Molecule Accurate Recognition Technology, en heeft het potentieel om het identificatieproces van de moleculaire structuur tienvoudig te versnellen. Deze ontwikkeling zou een paradigmaverschuiving in de chemische analyse kunnen betekenen, farmaceutische en medicijnontdekkingsgebieden aangezien 70 procent van alle door de Food and Drug Administration (FDA) goedgekeurde medicijnen gebaseerd zijn op natuurlijke producten zoals bodemmicro-organismen, terrestrische planten en, meer en meer, mariene levensvormen zoals algen.

"De structuur van een molecuul is de activerende informatie, " zei Bill Gerwick, hoogleraar oceanografie en farmaceutische wetenschappen aan de Scripps Institution of Oceanography van UC San Diego. "Je moet de structuur hebben voor elke FDA-goedkeuring. Als je intellectueel eigendom wilt hebben, je moet die structuur patenteren. Als je analogen wilt maken van dat molecuul, je moet weten wat het startmolecuul is. Het is een cruciaal stuk informatie."

Chen Zhang, een nano-engineering Ph.D. student aan UC San Diego in samenwerking met Gerwick en de eerste auteur van het artikel gepubliceerd in Natuurwetenschappelijke rapporten , zei dat het bepalen van de structuur van een molecuul een knelpunt kan zijn in het onderzoeksproces naar natuurlijke producten, het kost experts maanden en zelfs jaren om de juiste en volledige structuur nauwkeurig te bepalen. Hoewel elk molecuul en zijn identificatietijdlijn anders is, de SMART-aanpak geeft onderzoekers een vroege aanwijzing in welke familie een nieuw molecuul valt, de tijd die nodig is om een ​​nieuw natuurproduct te karakteriseren drastisch te verminderen.

"De manier waarop we het proces konden versnellen, is door in wezen gezichtsherkenningssoftware te gebruiken om te kijken naar de belangrijkste informatie die we over de moleculen verkrijgen, "Zei Gerwick. Het belangrijkste stuk informatie dat het team gebruikt, wordt een heteronucleaire singuliere kwantumcoherentie nucleaire magnetische resonantie genoemd, of HSQC-NMR, spectrum. Het produceert een topologische kaart van vlekken die onthullen welke protonen in het molecuul direct aan welke koolstofatomen zijn bevestigd, een rangschikking die uniek is voor elk molecuul.

Zhang en Gerwick werkten samen met Gary Cottrell, een professor in computerwetenschappen en techniek aan de UC San Diego Jacobs School of Engineering, om een ​​diepgaand leersysteem te ontwikkelen dat is getraind met duizenden HSQC-spectra uit eerder onderzoek. Dit convolutionele neurale netwerk neemt een 2D-beeld van het HSQC NMR-spectrum van een onbekend molecuul en brengt het in kaart in een 10-dimensionale ruimte geclusterd in de buurt van vergelijkbare moleculen. waardoor het voor onderzoekers gemakkelijker wordt om de structuur van een onbekend molecuul op te helderen.

"Chen nam deze benadering om NMR-spectra van meer dan 4 te krijgen, 000 samenstellingen uit de literatuur door de afbeeldingen letterlijk uit de pdf's van de kranten te knippen, " zei Cottrell. "Het was een geweldige inspanning! Toch, dit is normaal gesproken niet genoeg data om een ​​diep netwerk te trainen, maar we gebruikten een technologie genaamd een Siamees netwerk, waarin je traint op beeldenparen. Dit versterkt je trainingsset met ongeveer het kwadraat van het aantal verbindingen in een familie, en is wat dit project haalbaar maakte."

Deze samenwerking is de eerste keer dat Gerwick een technische student begeleidt, en de uitwisseling van ideeën bleek vruchtbaar.

"Het was een geweldige interactie. UC San Diego heeft iets heel magisch, en dat is de diepgaande samenwerking tussen afdelingen - het is fenomenaal, Gerwick zei. "Als je probeert om bedachtzaam iets uit een andere discipline te halen dat misschien zelfs alledaags is in die discipline en het op een nieuwe en unieke manier toe te passen in onze discipline, het is een kans om echt dit soort paradigmaverschuivende dingen te hebben. En ik denk dat deze technologie, met enige vooruitgang, zou een echte paradigmaverschuiving kunnen zijn in de manier waarop we allerlei soorten chemie en chemische analyse doen."