Chemici ontwikkelen en optimaliseren vaak nieuwe chemische reacties met behulp van zogenaamde modelsystemen, dat wil zeggen eenvoudige, gemakkelijk toegankelijke substraten. Vervolgens gebruiken ze zo’n honderd andere substraten als voorbeeld om aan te tonen dat de reactie werkt. Deze demonstratie van veelzijdige toepasbaarheid wordt in technisch jargon "scope" genoemd.
Een subjectieve selectie van substraten resulteert echter vaak in een vertekend beeld van het toepassingsgebied van de nieuw ontwikkelde reactie. Het is vaak onduidelijk of het kan worden gebruikt om een gewenst product te synthetiseren. Om dit probleem aan te pakken, stelt een team onder leiding van scheikundige prof. Frank Glorius van de Universiteit van Münster (Duitsland) een computerondersteunde, bias-vrije methode voor voor het selecteren van de modelsubstraten om nieuwe chemische reacties te evalueren.
De selectie van substraten is gebaseerd op de complexiteit en structurele eigenschappen van echte farmaceutische verbindingen. "Onze methode heeft tot doel de kwaliteit en informatie-inhoud van chemische reactiegegevens in de toekomst te verbeteren en kennislacunes te dichten", legt Glorius uit.
Een dieper begrip van nieuwe reacties verlaagt de barrières voor hun toepassing in zowel een academische als een industriële context. De beschikbaarheid van hoogwaardige, onbevooroordeelde gegevens vergemakkelijkt ook aanzienlijk het gebruik van machinaal leren en maakt de weg vrij voor een uitgebreider gebruik van de gegevens. Het werk is gepubliceerd in het tijdschrift ACS Central Science .
Volgens de auteurs van het team zijn pogingen om de ontwikkeling en evaluatie van chemische reacties te standaardiseren en objectiveren nog steeds vrij nieuw en relatief ongebruikelijk. “Met onze publicatie willen we een ‘heroverwegingsproces’ op gang brengen. In plaats van zoveel mogelijk experimenten uit te voeren, die vaak bevooroordeeld zijn of een voorspelbare uitkomst hebben, zou de nadruk moeten liggen op het verkrijgen van de best mogelijke gegevens over nieuwe chemische reacties.” zegt eerste auteur Debanjan Rana.
Andere wetenschappers hebben ook geprobeerd chemische reacties te evalueren op basis van "beter" geselecteerde substraten. Dit werk bleef echter beperkt tot speciale gevallen – hetzij tot stevig geselecteerde structuren met farmaceutische relevantie, hetzij tot structuren die speciaal op maat waren gemaakt voor een enkele reactie, die in een complex proces moeten worden berekend en geselecteerd.
In tegenstelling tot het eerdere werk houdt de methode van het Münster-team rekening met de volledige structuur van een molecuul, waardoor deze universeel toepasbaar is voor elke chemische reactie.
Niklas Hölter, een van de auteurs van het artikel in Münster, legt het denkproces achter de studie uit:"De reikwijdte is van cruciaal belang in alle publicaties over chemische synthese. Chemici zijn echter vaak bevooroordeeld in hun keuze van substraatverbindingen die ze willen testen.
“Ze kiezen bijvoorbeeld voor substraten die structureel heel eenvoudig zijn, erg lijken op het modelsubstraat of gewoonweg gewoon in het laboratorium verkrijgbaar zijn (‘selection bias’). Ze vermelden in hun publicatie vaak helemaal geen mislukte reacties om te kunnen schilderen een beter beeld ('reporting bias')."
Bij het synthetiseren van nieuwe chemische verbindingen, zoals actieve ingrediënten of materialen, moeten scheikundigen de meest geschikte methode selecteren voor het produceren van de doelverbinding uit een groot aantal bekende chemische reacties en methoden. Hiervoor houden ze rekening met verschillende factoren, zoals de opbrengst van het gewenste product en milieu- en veiligheidsaspecten. De ontwikkeling van nieuwe, veelzijdige chemische reacties blijft daarom een focus van het huidige chemische onderzoek.
De door het team van de Universiteit van Münster ontwikkelde methode maakte gebruik van moleculaire vingerafdrukken om alle goedgekeurde actieve farmaceutische ingrediënten om te zetten in een digitale code. Met behulp van machine learning en clusteringmethoden zonder toezicht creëerden ze een model dat deze ‘ruimte’ van actieve farmaceutische ingrediënten verdeelt in chemisch betekenisvolle regio’s op basis van moleculaire structuren.
Om een nieuwe chemische reactie te evalueren, kunnen duizenden potentiële testsubstraten in dezelfde ruimte worden geprojecteerd met behulp van het machine-learning-model. Er wordt automatisch een testsubstraat geselecteerd uit het midden van elk van de eerder geïdentificeerde gebieden om de gehele ruimte zonder vertekening te bestrijken.