Wetenschap
Purdue-onderzoekers hebben een nieuw systeem ontwikkeld, genaamd Citroen, voor snelle ontginning van biomoleculaire interactiegegevens om te gebruiken met machinale leermethoden voor het ontwerpen van medicijnen. Krediet:afbeelding verstrekt
Een van de uitdagingen bij het gebruik van machine learning voor de ontwikkeling van geneesmiddelen is het creëren van een proces waarmee de computer de benodigde informatie uit een verzameling gegevenspunten kan halen. Geneesmiddelenwetenschappers moeten biologische gegevens verzamelen en de software trainen om te begrijpen hoe een typisch menselijk lichaam zal interageren met de combinaties die samen een medicijn vormen.
Onderzoekers van de Purdue University hebben een nieuw raamwerk gecreëerd voor het delven van gegevens voor het trainen van machine learning-modellen. Het frame, genaamd Citroen, helpt geneesmiddelenonderzoekers de Protein Data Base (PDB) beter te ontginnen - een uitgebreide bron met meer dan 140, 000 biomoleculaire structuren en elke week worden er nieuwe vrijgegeven. Het werk is gepubliceerd in de editie van 15 oktober van Bio-informatica .
"PDB is een essentieel hulpmiddel voor de gemeenschap voor het ontdekken van geneesmiddelen, " zei Gaurav Chopra, een assistent-professor analytische en fysische chemie in Purdue's College of Science die samenwerkt met andere onderzoekers in het Purdue Institute for Drug Discovery en het team leidde dat Lemon heeft gemaakt. "Het probleem is dat het enorm veel tijd kan kosten om alle verzamelde gegevens te sorteren. Machine learning kan helpen, maar je hebt nog steeds een sterk raamwerk nodig van waaruit de computer snel gegevens kan analyseren om te helpen bij het maken van veilige en effectieve medicijnen."
Het Lemon-softwareplatform is een snelle C++11-bibliotheek met Python-bindingen die de PDB binnen enkele minuten minen. Het laden van alle traditionele mmCIF-bestanden in de PDB duurt ongeveer 290 minuten, maar Lemon doet dit in ongeveer zes minuten bij het toepassen van een eenvoudige workflow op een 8-core machine. Met Lemon kan de gebruiker aangepaste functies schrijven, het opnemen als onderdeel van hun softwaresuite, en op een standaard manier aangepaste functies te ontwikkelen om unieke benchmarking-datasets voor de hele wetenschappelijke gemeenschap te genereren.
"Experimentele structuren die in PDB zijn gedeponeerd, hebben geleid tot verschillende vorderingen voor wetenschappelijke en educatieve gemeenschappen op het gebied van structurele en computationele biologie die de ontwikkeling van geneesmiddelen en andere gebieden helpen bevorderen, " zei Jonathan Fijn, een doctoraat student scheikunde die met Chopra samenwerkte om het platform te ontwikkelen. "We hebben Lemon gecreëerd als een one-stop-shop om snel de hele databank te ontginnen en de nuttige biologische informatie eruit te halen die essentieel is voor het ontwikkelen van medicijnen."
Lemon kreeg zijn naam omdat het oorspronkelijk was ontworpen om benchmarking-sets te maken voor software voor het ontwerpen van geneesmiddelen en om de citroenen te identificeren, biomoleculaire interacties die niet goed gemodelleerd kunnen worden, in het VOB.
Het softwareontwikkelingswerk is het nieuwste project met gezondheidsinnovaties van Chopra en zijn team. Lemon is gratis beschikbaar op GitHub op lemon" target="_blank"> github.com/chopralab/citroen . Gedetailleerde documentatie is beschikbaar op chopralab.github.io/lemon/latest/index.html.
Wetenschap © https://nl.scienceaq.com