science >> Wetenschap >  >> Biologie

Goud zeven uit de datastroom

De volgende generatie DNA-sequencingtechnologieën hebben wereldwijd databases en harde schijven overspoeld met grote datasets, maar halen onderzoekers het maximale uit deze stortvloed aan gegevens? In een nieuwe studie in het oktobernummer van Toepassingen in de plantenwetenschappen , Dr. Brent Berger en collega's stellen een manier voor om het resterende goud uit grote reeksen sequentiegegevens te zeven. De auteurs laten zien dat een nieuwe dataminingtechniek kan worden gebruikt om waardevolle informatie uit bestaande datasets te halen, en bewijzen het concept door de sequentie op te halen uit genen die de eigenaardige bloemstructuren beïnvloeden die te zien zijn in de plantenfamilie Goodeniaceae.

DNA-sequencing is zo goedkoop geworden dat zelfs als een onderzoeker alleen echt geïnteresseerd is in de sequentie van een paar genen, het is vaak het meest praktisch om gewoon het hele genoom te sequencen. Bioinformatische technieken kunnen de gewenste gensequentie later uitkiezen, met minder gedoe dan het richten op specifieke genen om te sequensen. Deze oefening, bekend als "genome skimming, " is een steeds populairdere manier geworden om vragen over relaties tussen plantensoorten te beantwoorden.

Het uitgangspunt van genoom skimming is om shotgun-sequencing met een lage dekking te gebruiken om de DNA-sequentie op te halen uit fracties met een hoog aantal kopieën van het genoom. Bij shotgun-sequencing, het genoom wordt opgedeeld in kleine stukjes voor sequencing, en vervolgens rekenkundig weer aan elkaar genaaid met behulp van de overlappingen tussen de brokken, een proces dat assemblage wordt genoemd. De hoeveelheid "dekking" komt overeen met hoeveel van die kleine stukjes in de volgorde staan; hoe hoger de dekking, hoe gemakkelijker het is om het genoom weer aan elkaar te hechten, wat resulteert in een completere genoomsequentie.

Maar een hogere dekking is duurder, en sommige vragen kunnen worden beantwoord met een goedkopere, sequencing-run met lage dekking. "High-copy fracties" van totaal genomisch DNA, zoals chloroplastgenomen of nucleair ribosomaal DNA, zijn in hogere overvloed in de sequentiepool, en kan dus volledig worden gesequenced, zelfs in goedkope, laagdekkingsritten. Sequenties van deze genomische fracties met een hoge kopie worden meestal gebruikt om evolutionaire relaties tussen verschillende soorten en groepen op te lossen. Maar tijdens het afromen van het genoom, onderzoekers produceren enorme hoeveelheden potentieel waardevolle sequentiegegevens en gooien ze vervolgens weg. "Veel genoom-skimming-datasets worden gebruikt voor het samenstellen van het chloroplast-genoom, wat in ons geval slechts 3% van de gesequenced gegevens gebruikt, " merkte Dr. Dianella Howarth op, een co-auteur van het onderzoek.

In dit onderzoek, de auteurs wierpen een tweede blik op een genoom-skimming dataset die eerder werd gebruikt om evolutionaire relaties in de Goodeniaceae op te lossen, een plantenfamilie die gewoonlijk "waaierbloemen" of "halve bloemen" wordt genoemd vanwege hun intrigerende bloemvorm, die eruitziet alsof iemand de bloem doormidden heeft gesneden. De auteurs wilden zien of deze genoom-skimming dataset kan worden gepeild voor meer informatie over de genetica achter deze unieke bloemenstructuur. Ze gebruikten verschillende softwarepakketten om voorheen ongebruikte sequentiefragmenten samen te stellen uit de low-copy fractie van de originele genoom-skimming dataset. Vervolgens doorzochten ze de resulterende assemblage op sequentie van een reeks genen genaamd CYCLOIDEA genen, die betrokken zijn bij de bloemenstructuur en symmetrie.

De auteurs waren in staat om voldoende delen van de genen te achterhalen, van meerdere soorten, om volledige uitlijningen van alle vier te creëren CYCLOIDEA genen in de kern Goodeniaceae. Deze gegevens kunnen nuttig zijn voor toekomstige studies over de evolutie van de bizarre bloemenstructuur die in deze groep wordt gezien. "Sequenties vergelijken van CYCLOIDEA -achtige genen in deze groep kunnen aanwijzingen geven over de precieze sequentieveranderingen die resulteren in veranderingen in de bloemmorfologie, " verklaarde Dr. Howarth.

Algemener, Dr. Howarth vervolgde, "Stukjes van elk van belang zijnd gen kunnen mogelijk worden gewonnen uit al voltooide gegevenssets voor het skimmen van het genoom." Een stukje van een gen klinkt misschien niet zo veel, maar er zijn verrassend veel toepassingen voor deze fragmenten. "Deze gegevens kunnen voldoende informatie opleveren om bruikbare nucleaire regio's te bepalen voor fylogenetische analyses of om mogelijke genduplicatiegebeurtenissen te lokaliseren. Bovendien, sondes voor sequentiebepaling van doelverrijking kunnen snel worden gegenereerd over een clade om kandidaat-genen en hun regulerende regio's in evo-devo-onderzoeken te onderzoeken."

Datamining-benaderingen zoals deze maken een veel vollediger gebruik van datasets voor het skimmen van het genoom mogelijk. Hierdoor kunnen belangrijke vragen worden beantwoord met bestaande gegevens, en opent de deur voor wetenschappers die geen toegang hebben tot de middelen om grootschalige datasets te produceren, bijvoorbeeld wetenschappers aan kleinere hogescholen of landen zonder grote subsidieverlenende instanties. Terwijl DNA-sequentiegegevens binnenstromen, studies zoals deze wijzen op manieren om ervoor te zorgen dat we geen waardevolle informatie voorbij laten gaan.