Science >> Wetenschap >  >> Biologie

Ingenieurs ontwikkelen innovatieve softwaretools voor microbioomanalyse

Credit:CC0 Publiek Domein

Sinds in 1995 de sequentie van het eerste microbiële genoom werd bepaald, hebben wetenschappers de genomische samenstelling van honderdduizenden micro-organismen gereconstrueerd en zelfs methoden bedacht om een ​​telling te houden van bacteriële gemeenschappen op de huid, in de darmen, of in de bodem, het water en elders. op bulkmonsters, wat leidde tot de opkomst van een relatief nieuw onderzoeksgebied dat bekend staat als metagenomics.



Het ontleden van metagenomische gegevens kan een ontmoedigende taak zijn, net zoals het proberen een aantal enorme legpuzzels samen te stellen waarvan alle stukjes door elkaar zijn gegooid. Bij het aangaan van deze unieke computationele uitdaging gingen Santiago Segarra, expert op het gebied van grafische kunstmatige intelligentie (AI) van Rice University, en computationeel bioloog Todd Treangen samen om te onderzoeken hoe AI-aangedreven data-analyse zou kunnen helpen nieuwe tools te ontwikkelen om metagenomics-onderzoek een boost te geven.

Het wetenschappersduo richtte zich op twee soorten gegevens die metagenomische analyses bijzonder uitdagend maken (herhalingen en structurele varianten) en ontwikkelde tools voor het verwerken van deze gegevenstypen die beter presteren dan de huidige methoden.

Herhalingen zijn identieke DNA-sequenties die herhaaldelijk voorkomen, zowel in het genoom van afzonderlijke organismen als in meerdere genomen in een gemeenschap van organismen.

"Het DNA in een metagenomisch monster van meerdere organismen kan worden weergegeven als een grafiek", zegt Segarra, assistent-professor elektrische en computertechniek.

"In wezen maakt een van de tools die we hebben ontwikkeld gebruik van de structuur van deze grafiek om te bepalen welke stukjes DNA herhaaldelijk verschijnen, hetzij over microben, hetzij binnen hetzelfde micro-organisme."

De methode, genaamd GraSSRep, combineert zelfgestuurd leren, een machinaal leerproces waarbij een AI-model zichzelf traint om onderscheid te maken tussen verborgen en beschikbare invoer, en neurale netwerken in kaart brengt, systemen die gegevens verwerken die objecten en hun onderlinge verbindingen in grafieken weergeven.

Het artikel, ook beschikbaar op de arXiv preprint server, werd gepresenteerd tijdens de 28e sessie van een jaarlijkse internationale conferentie over onderzoek in computationele moleculaire biologie, RECOMB 2024. Het project werd geleid door Rice-afgestudeerde student en onderzoeksassistent Ali Azizpour. Advait Balaji, alumnus van Rice-doctoraat, is ook auteur van het onderzoek.

Herhalingen zijn van belang omdat ze een belangrijke rol spelen in biologische processen, zoals de reactie van bacteriën op veranderingen in hun omgeving of de interactie van microbiomen met gastheerorganismen. Een specifiek voorbeeld van een fenomeen waarbij herhalingen een rol kunnen spelen is antibioticaresistentie.

Over het algemeen kan het volgen van de geschiedenis of dynamiek van herhalingen in een bacterieel genoom licht werpen op de strategieën van micro-organismen voor aanpassing of evolutie. Bovendien kunnen herhalingen soms vermomde virussen of bacteriofagen zijn. Van het Griekse woord voor 'verslinden' worden fagen soms gebruikt om bacteriën te doden.

"Deze fagen lijken feitelijk op herhalingen, dus je kunt de dynamiek tussen bacteriën en fagen volgen op basis van de herhalingen in de genomen", zegt Treangen, universitair hoofddocent informatica.

"Dit zou aanwijzingen kunnen opleveren over hoe je moeilijk te doden bacteriën kunt verwijderen, of een duidelijker beeld kunnen schetsen van hoe deze virussen omgaan met een bacteriële gemeenschap."

Toen voorheen een op grafieken gebaseerde aanpak werd gebruikt om herhalingsdetectie uit te voeren, gebruikten onderzoekers vooraf gedefinieerde specificaties voor waar ze op moesten letten in de grafiekgegevens. Wat GraSSRep onderscheidt van deze eerdere benaderingen is het ontbreken van dergelijke vooraf gedefinieerde parameters of referenties die aangeven hoe de gegevens worden verwerkt.

"Onze methode leert hoe we de grafiekstructuur beter kunnen gebruiken om herhalingen te detecteren, in plaats van te vertrouwen op initiële invoer", aldus Segarra. “Door zelfgecontroleerd leren kan deze tool zichzelf trainen zonder enige grondwaarheid die vaststelt wat een herhaling is en wat geen herhaling is. Als je met een metagenomisch monster werkt, hoef je niets te weten over wat er in zit. daar om het te analyseren."

Hetzelfde geldt in het geval van een andere metagenomische analysemethode, mede ontwikkeld door Segarra en Treangen:referentievrije detectie van structurele varianten in microbiomen via langgelezen coassemblagegrafieken, of rhea. Hun paper over nandoe zal worden gepresenteerd op de jaarlijkse conferentie van de International Society for Computational Biology, die van 12 tot en met 16 juli in Montreal plaatsvindt.

De hoofdauteur van het artikel is Kristen Curry, promovendus in de computerwetenschappen van Rice, die als postdoctoraal wetenschapper zal toetreden tot het laboratorium van Rayan Chikhi – ook co-auteur van het artikel – aan het Institut Pasteur in Parijs. Een versie van het artikel is beschikbaar op de bioRxiv preprint-server.

Terwijl GraSSRep is ontworpen om met herhalingen om te gaan, verwerkt rhea structurele varianten, dit zijn genomische veranderingen van 10 basenparen of meer die relevant zijn voor de geneeskunde en de moleculaire biologie vanwege hun rol bij verschillende ziekten, regulering van genexpressie, evolutionaire dynamiek en het bevorderen van genetische diversiteit. binnen populaties en tussen soorten.

"Het identificeren van structurele varianten in geïsoleerde genomen is relatief eenvoudig, maar het is moeilijker om dit te doen in metagenomen waar er geen duidelijk referentiegenoom is om de gegevens te helpen categoriseren", aldus Treangen.

Momenteel is een van de meest gebruikte methoden voor het verwerken van metagenomische gegevens het gebruik van metagenoom-geassembleerde genomen of MAG's.

"Deze de novo of referentiegestuurde assemblers zijn behoorlijk gevestigde tools die een hele operationele pijplijn met zich meebrengen, waarbij herhaalde detectie of identificatie van structurele varianten slechts enkele van hun functionaliteiten zijn", aldus Segarra.

"Eén ding waar we naar kijken is het vervangen van bestaande algoritmen door de onze en kijken hoe dat de prestaties van deze zeer veelgebruikte metagenomische assemblers kan verbeteren."

Rhea heeft geen referentiegenomen of MAG's nodig om structurele varianten te detecteren, en het presteerde beter dan methoden die op dergelijke vooraf gespecificeerde parameters vertrouwden wanneer het werd getest tegen twee nep-metagenomen.

"Dit was vooral merkbaar omdat we de gegevens veel gedetailleerder konden lezen dan met referentiegenomen," zei Segarra.

"Het andere waar we momenteel naar kijken is het toepassen van de tool op datasets uit de echte wereld en kijken hoe de resultaten verband houden met biologische processen en welke inzichten dit ons zou kunnen opleveren."

Treangen zei dat GraSSRep en rhea gecombineerd – voortbouwend op eerdere bijdragen op dit gebied – het potentieel hebben “om de onderliggende levensregels te ontsluiten die de microbiële evolutie bepalen.”

De projecten zijn het resultaat van een jarenlange samenwerking tussen de Segarra- en Treangen-labs.

"Dit is het resultaat van het uitvoeren van meerjarig gezamenlijk onderzoek op verschillende expertisegebieden, waardoor onze studenten Ali en Kristen bestaande paradigma's hebben kunnen uitdagen en nieuwe benaderingen kunnen ontwikkelen voor bestaande problemen in de metagenomica", aldus Treangen.

Meer informatie: Ali Azizpour et al, GraSSRep:op grafieken gebaseerd, zelfgecontroleerd leren voor herhaalde detectie in metagenomische assemblage, arXiv (2024). DOI:10.48550/arxiv.2402.09381

Kristen D. Curry et al., Referentievrije structurele variantdetectie in microbiomen via langgelezen coassemblagegrafieken, bioRxiv (2024). DOI:10.1101/2024.01.25.577285

Journaalinformatie: bioRxiv , arXiv

Aangeboden door Rice University