science >> Wetenschap >  >> Chemie

Een nieuwe methode voor het modelleren van interacties tussen geneesmiddelen en doelwitten herstelt een nadelige vooringenomenheid van technieken uit het verleden

"Het ontdekken van geneesmiddelen is een zeer lang proces. In elke fase, misschien vindt u uw medicijn niet goed genoeg en moet u een andere kandidaat zoeken, ", legt Xiao-Li Li van A*STAR uit. Zijn team won 'best paper' op de 2016 International Conference on Bioinformatics voor een nieuwe benadering voor het corrigeren van een intrinsiek probleem met machinale leermethoden.

Computer simulatie, of 'in silico'-technieken voor het ontdekken van geneesmiddelen, kan de nauwkeurigheid verbeteren en de uitgerekte, enorm dure weg om een ​​medicijn op de markt te brengen - gemiddeld meer dan 12 jaar en $ 1,8 miljard dollar.

Veel computersimulaties vereisen echter eerst 'training' op datasets van bekende geneesmiddelen en hun doelwitten. Deze gegevens kunnen aanvullende informatie bevatten over de 3D-structuur, chemische samenstelling, en andere moleculaire eigenschappen. Op basis van trends uit deze database met bekende gegevens, de simulatie kan vervolgens de interacties van onbekende moleculen voorspellen, wat leidt tot nieuwe medicijnen en nieuwe doeleiwitten.

Echter, van alle drugs en doelwitten in de database, alleen bepaalde combinaties zullen interageren. Potentiële paren worden ruimschoots gecompenseerd door niet-interagerende paren die 'onbalans tussen klassen' worden genoemd. Verdere onbalans is aanwezig in de vorm van verschillende en ongelijke subtypes van interactie, 'onevenwichtigheid binnen de klas' genoemd.

"Alle rekenmodellen die zijn ontworpen om de nauwkeurigheid te optimaliseren, zijn bevooroordeeld en zullen de neiging hebben om onbekende paren te classificeren in meerderheids- of niet-interactieklasse, " zegt Li. "Meerderheidsklassen zijn beter vertegenwoordigd in gegevens dan minderheidsinteractieklassen - dit vertekent deze modellen en veroorzaakt fouten. Onbalans in gegevens is een uitdagend probleem."

Li's team bij het A*STAR Institute for Infocomm Research, getracht dit te verhelpen door een 'onbalansbewust' algoritme te ontwikkelen dat nauwkeuriger interacties tussen geneesmiddelen voorspelde op basis van een database van 12, 600 bekende interacties en ongeveer 18 miljoen bekende niet-interagerende paren. Het algoritme is ontworpen om ondervertegenwoordigde interactiegroepen beter te herkennen en de gegevens daarin te verbeteren.

Door het verbeteren van het vermogen van het computermodel om zich te concentreren op de meest bruikbare gegevens (de interacties), het team creëerde een systeem dat beter presteerde dan bestaande modelleringstechnieken, nieuwe voorspellen, onbekende geneesmiddel-doelwitinteracties met hoge nauwkeurigheid.

De toekomst van machine learning hangt af van kunstmatige intelligentie en geavanceerd leren, zoals 'deep learning'. Hoe dan ook, zoals Li toevoegt:"data is key. Om ons voorspellend vermogen verder te verbeteren, het eerste wat we kunnen doen is meer relevante gegevens verzamelen over drugs en doelwitten."