Wetenschap
Krediet:CC0 Publiek Domein
Big Data is de laatste jaren alomtegenwoordig, en vooral in disciplines met heterogene en complexe datapatronen. Dit geldt met name voor de chemie. In sommige opzichten, chemische verbindingen kunnen in de taalkunde worden vergeleken met synoniemen omdat een bepaalde verbinding op verschillende manieren kan worden weergegeven. Om de zaken nog ingewikkelder te maken, sommige hebben niet eens een specifieke structuur en bestaan alleen als een samensmelting van vormen die in elkaar overgaan. Daarom is het belangrijk dat onderzoekers weten of ze te maken hebben met verschillende verbindingen of met verschillende representaties van dezelfde.
Soms, databases bevatten ook fouten die voortkomen uit onoplettendheid van de gebruiker. Om dergelijke fouten op te sporen en te corrigeren is speciale software nodig. In het geval van organische chemie, reacties zijn notoir moeilijk te analyseren. Daarom zijn reactiegegevens in de chemo-informatica veel minder ontwikkeld dan informatie over afzonderlijke moleculen.
Laboratorium voor Chemo-informatica en Moleculaire Modellering (Kazan Federale Universiteit) werkt sinds 2013 aan dit probleem. Onderzoekers daar hebben geleerd reactiekenmerken te voorspellen, optimale reactieomstandigheden vinden, en gegevensfouten op te sporen en te corrigeren. Als resultaat, er is een unieke database van reactiekenmerken ontstaan. Momenteel, het omvat 3,5 miljoen inzendingen. KFU is het enige Russische lid van Reaxys R&D Collaboration, een collectief dat werkt aan chemische databases.
In dit nieuwe project getiteld CGRtools, KFU-onderzoekers hebben een aantal problemen opgelost om reactie-informatie beter te verwerken. De softwarebibliotheek is aanzienlijk rijker aan functionaliteit dan alle bestaande tools. CGRtools ondersteunt moleculen en reactie als objecten. CGRtools behandelt chemische objecten op dezelfde manier als standaard Python-gegevenstypen zoals gehele getallen, snaren, enz. Elk chemisch object is hashbaar vanwege de canonicalisering van de atoomnummering. De objecten ondersteunen transparante klasse-overerving, die bestaande methoden en attributen uitbreidt zonder bestaande te breken.
belangrijk, de bibliotheek is gratis beschikbaar op https://github.com/cimmkzn/CGRtools.
Wetenschap © https://nl.scienceaq.com