Wetenschap
Schematische weergave van de HiCRep-methode. HiCRep gebruikt twee stappen om de reproduceerbaarheid van gegevens van Hi-C-experimenten nauwkeurig te beoordelen. Stap 1:Gegevens van Hi-C-experimenten (weergegeven in driehoekgrafieken) worden eerst gladgestreken zodat onderzoekers trends in de gegevens duidelijker kunnen zien. Stap 2:De gegevens worden gestratificeerd op basis van afstand om rekening te houden met de overvloed aan nabijgelegen interacties in Hi-C-gegevens. Krediet:Li-laboratorium, Penn State University
Een nieuwe statistische methode om de reproduceerbaarheid van gegevens van Hi-C te evalueren - een geavanceerd hulpmiddel om te bestuderen hoe het genoom in drie dimensies in een cel werkt - zal ervoor zorgen dat de gegevens in deze "big data" -onderzoeken betrouwbaar zijn.
"Hi-C legt de fysieke interacties tussen verschillende regio's van het genoom vast, " zei Qunhua Li, assistent-professor statistiek aan Penn State en hoofdauteur van het artikel. "Deze interacties spelen een rol bij het bepalen wat een spiercel een spiercel maakt in plaats van een zenuw- of kankercel. standaardmetingen om de reproduceerbaarheid van gegevens te beoordelen, kunnen vaak niet zeggen of twee monsters afkomstig zijn van hetzelfde celtype of van volledig niet-verwante celtypen. Dit maakt het moeilijk om te beoordelen of de gegevens reproduceerbaar zijn. We hebben een nieuwe methode ontwikkeld om de reproduceerbaarheid van Hi-C-gegevens nauwkeurig te evalueren, waardoor onderzoekers met meer vertrouwen de biologie uit de gegevens kunnen interpreteren."
De nieuwe methode, genaamd HiCRep, ontwikkeld door een team van onderzoekers van Penn State en de Universiteit van Washington, is de eerste die een uniek kenmerk van Hi-C-gegevens verklaart:interacties tussen regio's van het genoom die dicht bij elkaar liggen, zijn veel waarschijnlijker toevallig en creëren daarom onechte, of fout, overeenkomst tussen niet-verwante steekproeven. Een paper waarin de nieuwe methode wordt beschreven, verschijnt in het tijdschrift Genoomonderzoek .
"Met de enorme hoeveelheid gegevens die wordt geproduceerd in onderzoeken naar het hele genoom, het is essentieel om de kwaliteit van de gegevens te waarborgen, ", zei Li. "Met high-throughput-technologieën zoals Hi-C, we zijn in een positie om nieuw inzicht te krijgen in hoe het genoom in een cel werkt, maar alleen als de gegevens betrouwbaar en reproduceerbaar zijn."
In de kern van een cel bevindt zich een enorme hoeveelheid genetisch materiaal in de vorm van chromosomen - extreem lange moleculen gemaakt van DNA en eiwitten. De chromosomen, die genen bevatten en de regulerende DNA-sequenties die bepalen wanneer en waar de genen worden gebruikt, zijn georganiseerd en verpakt in een structuur die chromatine wordt genoemd. Het lot van de cel, of het nu een spier- of zenuwcel wordt, bijvoorbeeld, ligt eraan, althans gedeeltelijk, op welke delen van de chromatinestructuur toegankelijk zijn voor genen om tot expressie te komen, welke delen zijn gesloten, en hoe deze regio's op elkaar inwerken. HiC identificeert deze interacties door de interagerende gebieden van het genoom aan elkaar te vergrendelen, ze isoleren, en ze vervolgens te sequensen om erachter te komen waar ze vandaan komen in het genoom.
De HiCRep-methode is in staat om de biologische relatie tussen verschillende celtypen nauwkeurig te reconstrueren, waar andere methoden falen. Krediet:Li-laboratorium, Penn State University
"Het is een soort gigantische kom spaghetti waarin elke plek waar de noedels in aanraking komen een biologisch belangrijke interactie kan zijn. " zei Li. "Hi-C vindt al deze interacties, maar de overgrote meerderheid van hen komt voor tussen regio's van het genoom die zeer dicht bij elkaar liggen op de chromosomen en geen specifieke biologische functies hebben. Een gevolg hiervan is dat de sterkte van signalen sterk afhangt van de afstand tussen de interactiegebieden. Dit maakt het uiterst moeilijk voor veelgebruikte reproduceerbaarheidsmaatregelen, zoals correlatiecoëfficiënten, om Hi-C-gegevens te differentiëren, omdat dit patroon er zelfs tussen zeer verschillende celtypen erg op kan lijken. Onze nieuwe methode houdt rekening met deze eigenschap van Hi-C en stelt ons in staat om op betrouwbare wijze verschillende celtypes te onderscheiden."
"Dit leert ons opnieuw een statistische basisles die vaak over het hoofd wordt gezien in het veld, "zei Li. "Heel vaak, correlatie wordt in veel wetenschappelijke disciplines behandeld als een proxy voor reproduceerbaarheid, maar eigenlijk zijn ze niet hetzelfde. Correlatie gaat over hoe sterk twee objecten gerelateerd zijn. Twee irrelevante objecten kunnen een hoge correlatie hebben omdat ze gerelateerd zijn aan een gemeenschappelijke factor. Dit is hier het geval. Afstand is de verborgen gemeenschappelijke factor in de Hi-C-gegevens die de correlatie aandrijft, waardoor de correlatie niet de informatie van belang weerspiegelt. Ironisch, terwijl dit fenomeen, in statistische termen bekend als het verstorende effect, komt aan bod in elke elementaire statistiekcursus, het is nog steeds opvallend om te zien hoe vaak het in de praktijk over het hoofd wordt gezien, zelfs onder goed opgeleide wetenschappers."
De onderzoekers ontwierpen HiCRep om systematisch rekening te houden met deze afstandsafhankelijke functie van Hi-C-gegevens. Om dit te realiseren, de onderzoekers egaliseren eerst de gegevens zodat ze trends in de gegevens duidelijker kunnen zien. Vervolgens ontwikkelden ze een nieuwe mate van gelijkenis die in staat is om gegevens van verschillende celtypen gemakkelijker te onderscheiden door de interacties te stratificeren op basis van de afstand tussen de twee regio's. "Dit is hetzelfde als het bestuderen van het effect van medicamenteuze behandeling voor een populatie met zeer verschillende leeftijden. Stratificatie naar leeftijd helpt ons om ons te concentreren op het effect van het medicijn. Voor ons geval, stratificatie op afstand helpt ons om ons te concentreren op de ware relatie tussen monsters."
Om hun methode te testen, het onderzoeksteam evalueerde Hi-C-gegevens van verschillende celtypen met behulp van HiCRep en twee traditionele methoden. Waar de traditionele methoden werden gestruikeld door valse correlaties op basis van de overmaat aan nabijgelegen interacties, HiCRep was in staat om de celtypen betrouwbaar te onderscheiden. Aanvullend, HiCRep kon de hoeveelheid verschil tussen celtypen kwantificeren en nauwkeurig reconstrueren welke cellen nauwer aan elkaar verwant waren.
Wetenschap © https://nl.scienceaq.com