Onderzoekers die geïnteresseerd zijn in het verbeteren van een bepaalde eigenschap in planten kunnen nu de genen identificeren die de expressie van de eigenschap reguleren zonder experimenten uit te voeren.
Kranthi Varala van Purdue University en tien co-auteurs hebben de details van de nieuwe webgebaseerde tool voor het ontdekken van regulerende genen gepubliceerd in de Proceedings of the National Academy of Sciences . Varala heeft patent aangevraagd op de resultaten die betrekking hebben op de economisch belangrijke biosynthese van zaadolie.
Het Purdue-USDA-team probeerde een hulpbron op te bouwen die, uit grote hoeveelheden openbaar beschikbare gegevens, leert om snel te identificeren welke speciale genen, transcriptiefactoren genaamd, de expressie van een bepaalde eigenschap in verschillende plantensoorten reguleren.
"Elke studie richt zich op een handvol daarvan", zegt Varala, universitair docent tuinbouw en landschapsarchitectuur. "Ons uitgangspunt was dat als we alles in één enkele analyse kunnen stoppen, we deze gegevens kunnen gebruiken om iets mondiaals op te bouwen."
Arabidopsis fungeerde als de PNAS de modelplant van de studie, "maar deze aanpak heeft niets specifieks voor Arabidopsis," zei Varala. "De aanpak is zo algemeen dat je zou kunnen beginnen met een maïsdataset. Je zou het kunnen doen met rijst, met tomaat, met welk gewas je ook werkt, zolang je maar duizenden genexpressiemetingen hebt die mensen hebben gedaan. En er zijn meer dan een dozijn soorten waar we tienduizenden genexpressiestudies over hebben."
Om te bewijzen dat het systeem werkt, concentreerde het team zich op een genetische route die reguleert hoe planten olie in hun zaden maken en opslaan. Het team heeft voor deze eigenschap gekozen vanwege het belang ervan voor de productie van voedsel en biobrandstoffen, en omdat meer dan 300 van de betrokken genen al bekend zijn.
Door de transcriptiefactoren van een plant genetisch te manipuleren, kunnen onderzoekers de hoeveelheid olie die in de zaden wordt geproduceerd verhogen of verlagen.
Net als andere onderzoekers heeft Varala in de loop der jaren veel projecten uitgevoerd waarbij het zijn doel was om de genen en toezichthouders te identificeren die betrokken zijn bij het oplossen van één probleem. Dit betekende het uitvoeren van zorgvuldige, tijdrovende experimenten. Maar de gegenereerde gegevens boden niet alle antwoorden die hij zocht. Hij vergeleek het met het opstellen van een vergelijking waarbij hij slechts drie van de tien factoren kende.
"Je kunt de vergelijking niet oplossen", zei hij. Op dezelfde manier wilde Varala vaak meer vragen stellen dan de gegevens konden beantwoorden. Dat motiveerde hem om een raamwerk te bouwen dat alle mogelijke gegevens gebruikt om die vragen te stellen, zonder alle relevante experimenten te hoeven doen om een lijst met kandidaten te verkrijgen die vervolgens genetische validatie nodig hebben.
"Ik probeer de initiële fase van gegevensverzameling te kortsluiten", zei Varala, zodat wetenschappers zich kunnen concentreren op het uitvoeren van de genetische validaties. Maar daarvoor moest zijn team beginnen met een dataset gebaseerd op 18.000 individuele onderzoeken.
Varala en zijn team analyseerden deze enorme dataset met behulp van de Bell en de inmiddels gepensioneerde Brown-supercomputers van Purdue's Rosen Center for Advanced Computing. Het team heeft een machine-learning-framework gebouwd om het proces voor anderen te versnellen.
Het zou voor één persoon onmogelijk zijn om dit handmatig te doen. Een team zou het kunnen doen, maar dat zou vooroordelen introduceren in de manier waarop groepsleden de gegevens verwerken. De machine-learning-classificator werkt zonder vooringenomenheid.
Het nieuwe van de aanpak is dat in plaats van gegevens met betrekking tot alle organen te verzamelen, deze zich richt op orgaanspecifieke datasets. Onafhankelijke genennetwerken reguleren deze organen:bladeren, wortels, scheuten, bloemen en zaden.
"In plaats van alle organen te gebruiken, zeiden we, kunnen we binnen de zaadexperimenten die mensen door de jaren heen hebben gedaan, alle gegevens gebruiken om iets te leren wat er in het zaad gebeurt en niet noodzakelijkerwijs in de wortel, het blad of de bloem? Dat verbeterde." onze aanpak veel," zei Varala.
Het team gebruikte een computationele methode, de inferentiebenadering genaamd, om te voorspellen welke transcriptiefactoren het biosyntheseproces van zaadolie in Arabidopsis zouden reguleren.
"Degenen die we kennen, helpen ons te valideren dat onze aanpak correct werkt. Degenen die we niet kennen, zijn goede kandidaten voor het ontdekken van nieuwe biologie," zei Varala. "Deze puur computationele benadering weet niets over zaden of olie of iets dergelijks. We gaven het een lijst met genen en het was in staat de bekende te herontdekken zonder enige biologische context te kennen."
De hoofdauteur, Rajeev Ranjan, een postdoctoraal onderzoeker bij de afdeling Tuinbouw en Landschapsarchitectuur van Purdue, nam de andere twaalf van de top twintig en vroeg of die voorspellingen waar waren. "We hebben voor elf van die twaalf mutantlijnen kunnen genereren. Vijf van die elf veranderen het zaadoliegehalte", zei hij. "Verder hebben we ook aangetoond dat overexpressie van één factor de zaadolie tot twaalf procent verhoogt."
De acht bekende regulerende genen, toegevoegd aan de acht nieuwe, lieten zien dat de inferentiebenadering dertien van de twintig beste kandidaten nauwkeurig identificeerde. De kracht van de aanpak is dat ze, door alleen op basis van een lijst genen te werken, met hoge nauwkeurigheid kan voorspellen welke genen een bepaalde eigenschap zullen reguleren.
"Het kostte veel tijd omdat het een lang en ingewikkeld proces is, en er was geen garantie dat het zou werken", zei Varala over het vier jaar durende project. "Niets op deze schaal was eerder geprobeerd."