science >> Wetenschap >  >> Biologie

Internationale concurrentiebenchmarks metagenomics-software

Mihai Pop, een professor in computerwetenschappen aan de Universiteit van Maryland met een gezamenlijke aanstelling in het University of Maryland Institute for Advanced Computer Studies. Krediet:John T. Consoli, Universiteit van Maryland

Gemeenschappen van bacteriën leven overal:in ons lichaam, op ons lichaam en overal om ons heen. Alleen al de menselijke darm bevat honderden soorten bacteriën die helpen bij het verteren van voedsel en het leveren van voedingsstoffen, maar kan ons ook ziek maken. Om meer te weten te komen over deze groepen bacteriën en hoe ze ons leven beïnvloeden, wetenschappers moeten ze bestuderen. Maar deze taak stelt uitdagingen, omdat het onmogelijk is om de bacteriën naar het laboratorium te brengen of de biologische processen zou verstoren die de wetenschappers willen bestuderen.

Om deze moeilijkheden te omzeilen, wetenschappers hebben zich tot het gebied van metagenomics gewend. In metagenomica, onderzoekers gebruiken algoritmen om DNA uit een omgevingsmonster samen te voegen om het type en de rol van de aanwezige bacteriën te bepalen. In tegenstelling tot gevestigde vakgebieden zoals chemie, waar onderzoekers hun resultaten evalueren aan de hand van een reeks bekende standaarden, metagenomics is een relatief jong vakgebied dat dergelijke benchmarks niet heeft.

Mihai Pop, een professor in de computerwetenschappen aan de Universiteit van Maryland met een gezamenlijke aanstelling aan het Instituut voor geavanceerde computerstudies van de Universiteit van Maryland, heeft onlangs geholpen bij het beoordelen van een internationale uitdaging genaamd de Critical Assessment of Metagenome Interpretation (CAMI), die metagenomics-software benchmarkde. De resultaten zijn gepubliceerd in het tijdschrift Natuurmethoden op 2 oktober, 2017.

"Er is geen enkel algoritme waarvan we kunnen zeggen dat het overal de beste in is, " zei pap, die tevens mededirecteur is van het Centre for Health-related Informatics and Bioimaging aan de UMD. "Wat we ontdekten was dat één tool het beter doet in één context, maar een ander doet het beter in een andere context. Het is belangrijk voor onderzoekers om te weten dat ze software moeten kiezen op basis van de specifieke vragen die ze proberen te beantwoorden."

De resultaten van de studie waren niet verrassend voor Pop, vanwege de vele uitdagingen waarmee ontwikkelaars van metagenomics-software worden geconfronteerd. Eerst, DNA-analyse is een uitdaging in metagenomica omdat het teruggevonden DNA vaak uit het veld komt, geen strak gecontroleerde laboratoriumomgeving. In aanvulling, DNA van veel organismen - waarvan sommige misschien geen bekend genoom hebben - vermengen zich in een monster, waardoor het moeilijk is om correct te monteren, of samenvoegen, individuele genomen. Bovendien, DNA degradeert in ruwe omgevingen.

"Ik zie metagenomica graag als een nieuw type microscoop, ' zei pap. 'Vroeger, je zou een microscoop gebruiken om bacteriën te bestuderen. Nu hebben we een veel krachtigere microscoop, dat is DNA-sequencing gekoppeld aan geavanceerde algoritmen. Metagenomics belooft ons te helpen begrijpen wat bacteriën in de wereld doen. Maar eerst moeten we die microscoop afstemmen."

CAMI's leider nodigde Pop uit om de inzendingen te helpen evalueren door deelnemers uit te dagen vanwege zijn expertise in genoom- en metagenoomassemblage. In 2009, Pop hielp bij het publiceren van Bowtie, een van de meest gebruikte softwarepakketten voor het samenstellen van genomen. Recenter, hij werkte samen met de University of Maryland School of Medicine om honderdduizenden gensequenties te analyseren als onderdeel van de grootste, meest uitgebreide studie van diarree bij kinderen die ooit in ontwikkelingslanden is uitgevoerd.

"We ontdekten nieuwe, onbekende bacteriën die diarree veroorzaken, en we vonden ook interacties tussen bacteriën die de ziekte zouden kunnen verergeren of verbeteren, " zei Pop. "Ik heb het gevoel dat dit een van de meest impactvolle projecten is die ik heb gedaan met behulp van metagenomics."

Voor de wedstrijd, CAMI-onderzoekers combineerden ongeveer 700 microbiële genomen en 600 virale genomen met andere DNA-bronnen en simuleerden hoe zo'n verzameling DNA in het veld zou kunnen verschijnen. De taak van de deelnemers was om de genomen van de gesimuleerde DNA-pool te reconstrueren en te analyseren.

CAMI-onderzoekers scoorden de inzendingen van de deelnemers op drie gebieden:hoe goed ze de gefragmenteerde genomen verzamelden; hoe goed ze "verzonden, " of georganiseerd, DNA-fragmenten in verwante groepen om de families van organismen in het mengsel te bepalen; en hoe goed ze "profileerden, " of gereconstrueerd, de identiteit en relatieve abundantie van de organismen die in het mengsel aanwezig zijn. Pop droeg statistieken en software bij voor het evalueren van de ingediende verzamelde genomen.

Negentien teams dienden 215 inzendingen in met behulp van zes genoom-assemblers, negen binners en 10 profilers om deze uitdaging aan te gaan.

De resultaten toonden aan dat voor montage, algoritmen die een genoom samenvoegden met behulp van kleinere DNA-fragmenten van verschillende lengtes, presteerden beter dan die met DNA-fragmenten van een vaste lengte. Echter, geen enkele assembler deed het goed in het uit elkaar halen van verschillende, toch vergelijkbare genomen.

Voor de binning-taak, de onderzoekers vonden compromissen in hoe nauwkeurig de softwareprogramma's de groep identificeerden waartoe een bepaald DNA-fragment behoorde, versus hoeveel DNA-fragmenten de software aan groepen heeft toegewezen. Dit resultaat suggereert dat onderzoekers hun binning-software moeten kiezen op basis van of nauwkeurigheid of dekking belangrijker is. In aanvulling, de prestaties van alle binning-algoritmen namen af ​​​​wanneer monsters meerdere gerelateerde genomen bevatten.

Bij het profileren, software herstelde ofwel de relatieve hoeveelheid bacteriën in het monster beter of detecteerde organismen beter, zelfs bij zeer kleine hoeveelheden. Echter, de laatste algoritmen identificeerden vaker het verkeerde organisme.

Vooruit gaan, Pop zei dat de CAMI-groep nieuwe uitdagingen zal blijven aangaan met verschillende datasets en nieuwe evaluaties gericht op meer specifieke aspecten van softwareprestaties. Pop is verheugd om te zien dat wetenschappers de benchmarks gebruiken om onderzoeksvragen in het laboratorium en de kliniek te beantwoorden.

"Het gebied van metagenomics heeft normen nodig om ervoor te zorgen dat de resultaten correct zijn, goed gevalideerd zijn en de beste praktijken volgen, ' zei pap. 'Bijvoorbeeld, als een arts een interventie gaat uitvoeren op basis van resultaten van metagenomische software, het is essentieel dat die resultaten correct zijn. Ons werk biedt een routekaart voor het kiezen van de juiste software."