Wetenschap
Krediet:Angewandte Chemie
Databases met enorme hoeveelheden experimentele gegevens zijn beschikbaar voor onderzoekers in een breed scala aan chemische disciplines. Een team van onderzoekers heeft echter ontdekt dat de beschikbare gegevens niet succesvol zijn in het voorspellen van de opbrengsten van nieuwe syntheses met behulp van kunstmatige intelligentie (AI) en machine learning. Hun studie gepubliceerd in het tijdschrift Angewandte Chemie International Edition suggereert dat dit grotendeels te wijten is aan de neiging van wetenschappers om mislukte experimenten niet te rapporteren.
Hoewel op AI gebaseerde modellen bijzonder succesvol zijn geweest in het voorspellen van moleculaire structuren en materiaaleigenschappen, geven ze nogal onnauwkeurige voorspellingen voor informatie met betrekking tot productopbrengsten bij synthese, zoals Frank Glorius en zijn team van onderzoekers van de Westfälische Wilhelms-Universität Münster, Duitsland, hebben ontdekt .
De onderzoekers schrijven dit falen toe aan de gegevens die worden gebruikt om AI-systemen te trainen. "Interessant is dat de voorspelling van reactieopbrengsten (reactiviteit) veel uitdagender is dan de voorspelling van moleculaire eigenschappen. Reagentia, reagentia, hoeveelheden, omstandigheden, de experimentele uitvoering - ze bepalen allemaal de opbrengst, en dus wordt het probleem van opbrengstvoorspelling zeer data -intensief", legt Glorius uit. Dus, ondanks de enorme hoeveelheden beschikbare literatuur en resultaten, kwamen de onderzoekers tot het besef dat de gegevens niet geschikt zijn voor nauwkeurige voorspellingen van de verwachte opbrengst.
Het probleem is niet alleen te wijten aan een gebrek aan experimenten. Daarentegen identificeerde het team drie mogelijke oorzaken voor bevooroordeelde gegevens. Ten eerste kunnen de resultaten van chemische syntheses gebrekkig zijn als gevolg van experimentele fouten. Ten tweede, wanneer scheikundigen hun experimenten plannen, kunnen ze, bewust of onbewust, vooringenomenheid introduceren op basis van persoonlijke ervaring en vertrouwen op gevestigde methoden. Ten slotte, aangezien alleen reacties met een positief resultaat naar verwachting bijdragen aan vooruitgang, worden mislukte reacties minder vaak gemeld.
Om erachter te komen welke van deze drie factoren de grootste invloed had, hebben Glorius en het team met opzet de datasets aangepast voor vier verschillende, veelgebruikte (en dus datarijke) organische reacties. Ze hebben de experimentele fout kunstmatig vergroot, de grootte van de datasamplingsets verkleind of negatieve resultaten uit de gegevens verwijderd. Uit hun onderzoek bleek dat de experimentele fout de minste invloed had op het model, terwijl de bijdrage van het ontbreken van negatieve resultaten fundamenteel was.
De groep hoopt dat deze bevindingen wetenschappers zullen aanmoedigen om mislukte experimenten en hun successen altijd te melden. Dit zou de beschikbaarheid van gegevens voor het trainen van AI verbeteren, wat uiteindelijk zou helpen om de planning te versnellen en experimenten efficiënter te maken. Glorius voegt eraan toe dat "machine learning in de (moleculaire) chemie de efficiëntie drastisch zal verhogen en dat er minder reacties hoeven te worden uitgevoerd om een bepaald doel te bereiken, bijvoorbeeld een optimalisatie. wereld - duurzamer." + Verder verkennen
Wetenschap © https://nl.scienceaq.com