Van slimme chatbots tot apps die hele artikelen kunnen schrijven:kunstmatige intelligentie (AI) wordt een steeds alomtegenwoordiger onderdeel van ons leven. Michael Schon, onderzoeksmedewerker bij Wageningen University &Research, ontwerpt een AI-tool die vergelijkingen kan maken van niet-coderend RNA op plantengenomen. Verwacht wordt dat de tool de toekomstige ontwikkeling van nieuwe plantenrassen met een grotere resistentie tegen bijvoorbeeld droogte of ziekten zal versnellen en vereenvoudigen.
Eiwitten zijn de bouwstenen voor cellen in organismen. De instructies voor het maken van deze eiwitten worden uitgegeven (gecodeerd) door RNA uit genen. Naast deze coderende RNA's kunnen sommige genen niet-coderende RNA's produceren:met andere woorden, RNA dat geen instructies bevat om een eiwit te maken.
Dit type RNA speelt ook een belangrijke rol bij de ontwikkeling van organismen, zegt Michael Schon. “Ze kunnen bijvoorbeeld genen activeren, of het tegenovergestelde doen en uitschakelen. Dit heeft invloed op het uiterlijk van een plant en de eigenschappen die deze heeft. Bepaalde belangrijke niet-coderende RNA’s bepalen ook of een plant überhaupt volwassen wordt.”
Verwanten binnen dezelfde familie
Niet-coderend RNA zou mogelijk ook kunnen onthullen waarom een plantensoort tot een bepaalde familie behoort en toch andere kenmerken heeft. In eerder onderzoek identificeerde Schon niet-coderende RNA's van Arabidopsis thaliana (zandraket). Deze plant wordt door plantenwetenschappers gebruikt als modelorganisme.
“Arabidopsis behoort tot de Brassicaceae-familie, samen met belangrijke gewassen als broccoli, bloemkool en koolrabi. Deze familie staat ook wel bekend als de mosterd- of kruisbloemigenfamilie. Het is echter moeilijk om niet-coderende RNA’s van Arabidopsis te vergelijken met die van andere planten in de mosterdfamilie omdat eerder werk bij deze soorten zich voornamelijk heeft gericht op eiwitcoderende genen."
Beperkte annotatie van niet-coderend RNA
Dit betekent dat een vergelijking tussen planten voor elk gewas een aparte gen-annotatie vereist voor het niet-coderende RNA. Via zijn Veni-project zoekt Schon naar nieuwe manieren om niet-coderende RNA's te identificeren door gebruik te maken van kennis van verwante soorten.
“Van planten binnen de mosterdfamilie zijn ruim 200 genoomsequenties beschikbaar. Elk genoom wordt opgeslagen als een groot tekstbestand bestaande uit miljoenen letters die de basen van een DNA-molecuul (A, C, T en G) vertegenwoordigen. Omdat de niet -coderende bits zijn niet goed gecatalogiseerd (geannoteerd) in deze genomen, het is onmogelijk om alle niet-coderende genen die verspreid liggen in deze berg gegevens te vergelijken. Daarvoor hebben we nieuwe strategieën en hulpmiddelen nodig.'
Een klein deel van elk genoom
Het eerste probleem is weten waar in het genoom moet worden gezocht. Een van de tools die Schon ontwikkelt is iets dat hij GeneSketch noemt. Om de overeenkomstige delen van verschillende genomen te vinden, gebruikt hij een methode genaamd Minimizer Sketch.
"Het idee achter de Minimizer Sketch is dat je maar naar een klein stukje DNA hoeft te kijken (een schets) in plaats van naar de hele reeks", zegt Schon. “Dat betekent dat je maar op een paar duizend karakters per genoom hoeft te letten om een vergelijking uit te voeren, in plaats van op miljoenen.
De Minimizer Sketch werd eerder gebruikt om een boom van de evolutie van primaten te bouwen, die mensen en hun naaste verwanten omvat. Het bleek dat een zeer nauwkeurige stamboom van onze voorouders gemaakt kan worden op basis van schetsen gemaakt van minder dan 1% van het hele genoom. Een minimalisatieschets is daarom een zeer efficiënte manier om in te schatten hoe vergelijkbaar stukjes DNA met elkaar zijn, dus het zou ook nuttig moeten zijn om genomen binnen de mosterdfamilie te vergelijken."
Dezelfde technologie als ChatGPT
Nadat je weet waar je moet kijken, is de volgende stap begrijpen waar je naar kijkt. De technologie die Schon in GeneSketch wil gebruiken is dezelfde als die momenteel wordt gebruikt in andere AI-tools, zoals ChatGPT.
"Het is iets dat 'transformatortechnologie' wordt genoemd", zegt Schon.
“Je kunt een transformator vragen om bijvoorbeeld een ontbrekend woord in een zin in te vullen. In eerste instantie geeft de transformator je een willekeurig woord omdat hij nog nooit woorden heeft gezien. Maar als je hem traint op miljoenen voorbeeldzinnen, leert hij langzaam. om de juiste woorden te raden door op patronen in de tekst te letten.
"Na training wordt een groot taalmodel als ChatGPT heel goed in bepaalde taken, zoals het beantwoorden van vragen of het vertalen van de ene taal naar de andere. Een transformator kan worden getraind om niet alleen menselijke talen te leren, maar ook de taal van DNA, die zijn voordelen heeft Ik werk aan een model om patronen in het DNA van veel verschillende soorten te detecteren en die patronen te vertalen in een taal die wij als mensen kunnen begrijpen."
Het model moet worden getraind
Schon zal de transformator voor GeneSketch trainen om aandacht te besteden aan hoe genen veranderen tussen verschillende soorten, vooral niet-coderende genen. Maar hij verwacht onderweg een aantal uitdagingen tegen te komen.
"Een belangrijk punt is de betrouwbaarheid. De transformator is een relatief nieuwe technologie en maakt fouten. ChatGPT is bijvoorbeeld getraind op veel verschillende tekstbronnen, maar als je het een onderwerp vraagt dat het tijdens de training nooit heeft gezien, moet het iets verzinnen Je hoopt dat het iets redelijks verzint op basis van de patronen die het heeft gezien, maar dit is nooit een garantie. Je wilt uiteraard onzinuitvoer vermijden. Hoe meer je een transformator traint, hoe minder onzin hij produceert kan veel tijd en geld kosten. Is het beter om het model helemaal opnieuw te trainen of voort te bouwen op bestaande modellen?'
Potentieel van de GeneSketch
Schon hoopt na het eerste jaar van het project, dat in oktober 2023 van start ging, een prototype van de GeneSketch te hebben. Hij is van plan het te gebruiken om gen-annotaties te maken voor de hele mosterdfamilie.
De tool zou niet alleen nuttig kunnen zijn voor de onderzoekssector, maar ook voor de agrarische sector, zegt Schon. “Het zou zaadveredelaars bijvoorbeeld een snelle manier kunnen bieden om het DNA van een gewas en zijn wilde verwanten te begrijpen. Door meer te leren over hoe gewassen door de eeuwen heen unieke eigenschappen hebben kunnen ontwikkelen, zouden veredelaars beter geïnformeerde beslissingen kunnen nemen voor het verbeteren van eigenschappen, zoals het veerkrachtiger maken van gewassen tegen klimaatverandering. De potentiële impact kan dus enorm zijn."