Science >> Wetenschap >  >> Biologie

AI kan onderzoekers helpen begrijpen wat virussen van plan zijn in de oceanen en in uw darmen

Krediet:Pixabay/CC0 Publiek Domein

Virussen zijn een mysterieuze en slecht begrepen kracht in microbiële ecosystemen. Onderzoekers weten dat ze menselijke en bacteriële cellen in bijna elke omgeving kunnen infecteren, doden en manipuleren, van de oceanen tot je darmen. Maar wetenschappers hebben nog geen volledig beeld van hoe virussen hun omgeving grotendeels beïnvloeden vanwege hun buitengewone diversiteit en hun vermogen om snel te evolueren.



Gemeenschappen van microben zijn moeilijk te bestuderen in een laboratoriumomgeving. Veel microben zijn lastig te kweken, en hun natuurlijke omgeving heeft veel meer kenmerken die hun succes of falen beïnvloeden dan wetenschappers in een laboratorium kunnen nabootsen.

Dus systeembiologen zoals ik sequencen vaak al het DNA dat in een monster aanwezig is – bijvoorbeeld een fecaal monster van een patiënt –, scheiden de virale DNA-sequenties en annoteren vervolgens de delen van het virale genoom die coderen voor eiwitten. Deze aantekeningen over de locatie, structuur en andere kenmerken van genen helpen onderzoekers de functies te begrijpen die virussen in de omgeving kunnen uitvoeren en helpen bij het identificeren van verschillende soorten virussen. Onderzoekers annoteren virussen door virale sequenties in een monster te matchen met eerder geannoteerde sequenties die beschikbaar zijn in openbare databases met virale genetische sequenties.

Wetenschappers identificeren echter virale sequenties in DNA dat uit de omgeving is verzameld in een tempo dat ons vermogen om die genen te annoteren ver overtreft. Dit betekent dat onderzoekers bevindingen over virussen in microbiële ecosystemen publiceren met behulp van onaanvaardbaar kleine fracties van de beschikbare gegevens.

Om het vermogen van onderzoekers om virussen over de hele wereld te bestuderen te verbeteren, hebben mijn team en ik een nieuwe aanpak ontwikkeld om virale sequenties te annoteren met behulp van kunstmatige intelligentie. Via eiwittaalmodellen die lijken op grote taalmodellen zoals ChatGPT maar specifiek zijn voor eiwitten, waren we in staat voorheen onzichtbare virale sequenties te classificeren. Dit opent de deur voor onderzoekers om niet alleen meer te leren over virussen, maar ook om biologische vragen te beantwoorden die moeilijk te beantwoorden zijn met de huidige technieken.

Virussen annoteren met AI

Grote taalmodellen gebruiken relaties tussen woorden in grote datasets van tekst om potentiële antwoorden te geven op vragen waarop ze het antwoord niet expliciet hebben ‘geleerd’. Als je een chatbot vraagt:"Wat is de hoofdstad van Frankrijk?" Het model zoekt het antwoord bijvoorbeeld niet op in een tabel met hoofdsteden. In plaats daarvan gebruikt het zijn training op grote datasets van documenten en informatie om het antwoord af te leiden:"De hoofdstad van Frankrijk is Parijs."

Op dezelfde manier zijn eiwittaalmodellen AI-algoritmen die zijn getraind om relaties tussen miljarden eiwitsequenties uit omgevingen over de hele wereld te herkennen. Door deze training kunnen ze misschien iets afleiden over de essentie van virale eiwitten en hun functies.

We vroegen ons af of eiwittaalmodellen deze vraag konden beantwoorden:"Wat is, gegeven alle geannoteerde virale genetische sequenties, de functie van deze nieuwe sequentie?"

In onze proof of concept hebben we neurale netwerken getraind op eerder geannoteerde virale eiwitsequenties in vooraf getrainde eiwittaalmodellen en deze vervolgens gebruikt om de annotatie van nieuwe virale eiwitsequenties te voorspellen. Onze aanpak stelt ons in staat te onderzoeken wat het model ‘ziet’ in een bepaalde virale sequentie die tot een bepaalde annotatie leidt. Dit helpt bij het identificeren van kandidaat-eiwitten die van belang zijn, hetzij op basis van hun specifieke functies of hoe hun genoom is gerangschikt, waardoor de zoekruimte van enorme datasets wordt ingeruimd.

Door verder verwante virale genfuncties te identificeren, kunnen eiwittaalmodellen de huidige methoden aanvullen om nieuwe inzichten in de microbiologie te verschaffen. Mijn team en ik hebben ons model bijvoorbeeld kunnen gebruiken om een ​​voorheen niet-herkende integrase te ontdekken – een type eiwit dat genetische informatie in en uit cellen kan verplaatsen – in de wereldwijd overvloedig voorkomende mariene picocyanobacteriën Prochlorococcus en Synechococcus. Deze integrase kan met name genen in en uit deze bacteriepopulaties in de oceanen verplaatsen en deze microben in staat stellen zich beter aan te passen aan veranderende omgevingen.

Ons taalmodel identificeerde ook een nieuw viraal capside-eiwit dat wijdverspreid is in de oceanen. We hebben de eerste foto gemaakt van hoe de genen zijn gerangschikt, waaruit blijkt dat het verschillende sets genen kan bevatten waarvan we denken dat dit aangeeft dat dit virus verschillende functies vervult in zijn omgeving.

Deze voorlopige bevindingen vertegenwoordigen slechts twee van de duizenden annotaties die onze aanpak heeft opgeleverd.

Het onbekende analyseren

De meeste van de honderdduizenden nieuw ontdekte virussen zijn nog steeds niet geclassificeerd. Veel virale genetische sequenties komen overeen met eiwitfamilies zonder bekende functie of zijn nog nooit eerder gezien. Ons werk laat zien dat vergelijkbare eiwittaalmodellen kunnen helpen bij het bestuderen van de dreiging en belofte van de vele niet-gekarakteriseerde virussen op onze planeet.

Hoewel ons onderzoek zich richtte op virussen in de mondiale oceanen, is een verbeterde annotatie van virale eiwitten van cruciaal belang voor een beter begrip van de rol die virussen spelen bij gezondheid en ziekte in het menselijk lichaam. Wij en andere onderzoekers hebben de hypothese geopperd dat de virale activiteit in het menselijke darmmicrobioom kan veranderen als je ziek bent. Dit betekent dat virussen stress in microbiële gemeenschappen kunnen helpen identificeren.

Onze aanpak is echter ook beperkt omdat deze annotaties van hoge kwaliteit vereist. Onderzoekers ontwikkelen nieuwere eiwittaalmodellen die andere ‘taken’ integreren als onderdeel van hun training, met name het voorspellen van eiwitstructuren om vergelijkbare eiwitten te detecteren, om ze krachtiger te maken.

Door alle AI-tools beschikbaar te stellen via FAIR Data Principles – gegevens die vindbaar, toegankelijk, interoperabel en herbruikbaar zijn – kunnen onderzoekers in het algemeen het potentieel van deze nieuwe manieren om eiwitsequenties te annoteren realiseren, wat kan leiden tot ontdekkingen die de menselijke gezondheid ten goede komen.

Aangeboden door The Conversation

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.