science >> Wetenschap >  >> Chemie

Is uw machine learning-trainingsset bevooroordeeld? Hoe nieuwe medicijnen te ontwikkelen op basis van samengevoegde datasets

De auteurs combineerden propriëtaire (GSK) en gepubliceerde (CCDC) datasets om machine learning (ML) modellen voor het ontdekken van geneesmiddelen beter te trainen. Krediet:Alex Moldavië.

Polymorfen zijn moleculen die ondanks identieke chemische samenstellingen verschillende moleculaire pakkingen hebben. In een recente krant, onderzoekers van GlaxoSmithKline (GSK) en het Cambridge Crystallographic Data Center (CCDC) combineerden hun eigen (GSK) en gepubliceerde (CCDC) datasets om machine learning (ML) -modellen beter te trainen om stabiele polymorfen te voorspellen voor gebruik in nieuwe kandidaat-geneesmiddelen.

Wat zijn de belangrijkste verschillen tussen de CCDC- en GSK-datasets?

CCDC beheert en onderhoudt de Cambridge Structural Database (CSD). Voor de afgelopen eeuw, wetenschappers over de hele wereld hebben bijgedragen gepubliceerd, experimentele kristalstructuren naar de CSD, die nu meer dan 1,1 miljoen structuren heeft. De auteurs van het artikel gebruikten een subset van geneesmiddelen van de CSD in combinatie met structuren van GSK. De GSK-structuren werden verzameld in verschillende stadia van de farmaceutische pijplijn en zijn niet beperkt tot op de markt gebrachte producten. Co-auteur Dr. Jason Cole, senior research fellow in het onderzoeks- en ontwikkelingsteam van CCDC, legde uit waarom structuren die zijn verzameld in verschillende stadia van de pijplijn voor het ontdekken van geneesmiddelen zo belangrijk zijn.

"Bij de ontdekking van geneesmiddelen in een vroeg stadium, een kristalstructuur kan helpen om conformationele effecten te rationaliseren, bijvoorbeeld, of karakteriseren van de chemie van een nieuwe chemische entiteit waar andere technieken tot dubbelzinnigheid hebben geleid, ' zei Cole. 'Later in het proces, wanneer een nieuwe chemische entiteit wordt bestudeerd als een kandidaatmolecuul, kristalstructuren zijn van cruciaal belang omdat ze vormselectie informeren en later kunnen helpen bij het overwinnen van formulerings- en tabletteringsproblemen."

Deze informatie kan onderzoekers helpen bij het prioriteren van hun inspanningen, wat tijd en mogelijk levens bespaart.

"Door een reeks kristalstructuren te begrijpen, wetenschappers kunnen ook het risico inschatten dat een bepaalde vorm langdurig instabiel is, Cole zei. "Een volledige karakterisering van het structurele landschap leidt tot vertrouwen in het nemen van een vorm voorwaarts."

Hoe profiteren ML-modellen in de farmaceutische wetenschap van meerdere datasets?

Industriële datasets weerspiegelen meer dan alleen wetenschap; ze weerspiegelen culturele keuzes binnen een bepaalde organisatie.

"Je zult alleen co-kristallen vinden als je op zoek bent naar co-kristallen, " zei Cole, als voorbeeld. "De meeste bedrijven geven er de voorkeur aan om een ​​gratis, of ongebonden, medicijn. Men kan aannemen dat de typen structuren in een industriële set een weerspiegeling zijn van bewuste beslissingen om te zoeken naar vormen van bepaalde typen, terwijl er minder grenzen worden gesteld aan de onderzoekers die bijdragen aan de CSD."

ML-modellen profiteren van twee belangrijke dingen:datavolume en dataspecificiteit. Daarom is het zo handig om het volume en de verscheidenheid aan gegevens in de CSD te koppelen aan eigen datasets.

"Grote hoeveelheden data leiden tot betrouwbaardere voorspellingen, Cole zei. "Gegevens die het meest direct relevant zijn voor het probleem leiden tot nauwkeurigere voorspellingen. In de voorspellingen die CCDC-software gebruiken, we selecteren een subset van de meest relevante items die groot genoeg is om vertrouwen te geven. De GSK-set heeft ongetwijfeld zeer relevante verbindingen voor andere verbindingen in hun commerciële portfolio. Dus de modelbouwsoftware kan deze gebruiken."

Industriële onderzoekers die met zeer relevante gegevens werken, kunnen tegen problemen aanlopen als ze niet genoeg hebben om betrouwbare modellen te genereren.

"Bedenk dat CSD-software doorgaans ongeveer tweeduizend structuren kiest uit de 1,1 miljoen in de CSD, Cole zei. "De industriële set is klein in vergelijking, maar je zou kunnen kiezen, zeggen, 40 of 50 zeer relevante structuren. Alleen daarmee zou je onvoldoende data hebben om een ​​goed model te bouwen, maar de toegevoegde verbindingen uit de CSD vullen de dataset aan. In essentie, door de GSK- en CSD-sets op te nemen, krijgen we het beste van twee werelden:alle zeer relevante industriële structuren en een reeks vrij relevante CSD-structuren samen om een ​​hoogwaardig model te bouwen."

Waarom vormen polymorfen een risico voor de farmaceutische industrie?

De verschillende verpakkingsarrangementen betekenen dat één polymorf mogelijk meer geschikt is voor therapeutische levering, terwijl een andere vorm van dezelfde verbinding dat misschien niet is. Onderzoekers gebruiken kristalstructuurdatabases om op kennis gebaseerde voorspellingen te doen over de vraag of een potentieel nieuw medicijn bestaat uit een goed, stabiele vorm die fabrikanten kunnen maken, winkel, en leveren op een therapeutische manier. De auteurs van GSK en CCDC voltooiden een robuuste analyse van de kristalstructuren met kleine moleculen met röntgendiffractieresultaten van GSK en zijn erfgoedbedrijven in de afgelopen 40 jaar. Vervolgens combineerden ze die resultaten met een subset van geneesmiddelen uit de CSD van CCDC, die meer dan 1,1 miljoen kleine moleculen organische en metaal-organische kristalstructuren van onderzoekers over de hele wereld bevat.