science >> Wetenschap >  >> Chemie

Model leert hoe individuele aminozuren de eiwitfunctie bepalen

Een nieuw model ontwikkeld door MIT-onderzoekers zorgt voor rijkere, gemakkelijker berekenbare representaties van hoe individuele aminozuren de functie van een eiwit bepalen, die kunnen worden gebruikt voor het ontwerpen en testen van nieuwe eiwitten. Krediet:Massachusetts Institute of Technology

Een machine learning-model van MIT-onderzoekers breekt computationeel af hoe segmenten van aminozuurketens de functie van een eiwit bepalen, die onderzoekers kunnen helpen bij het ontwerpen en testen van nieuwe eiwitten voor de ontwikkeling van geneesmiddelen of biologisch onderzoek.

Eiwitten zijn lineaire ketens van aminozuren, verbonden door peptidebindingen, die vouwen in buitengewoon complexe driedimensionale structuren, afhankelijk van de volgorde en fysieke interacties binnen de keten. Die structuur, beurtelings, bepaalt de biologische functie van het eiwit. De 3D-structuur van een eiwit kennen, daarom, is waardevol voor, zeggen, voorspellen hoe eiwitten kunnen reageren op bepaalde medicijnen.

Echter, ondanks tientallen jaren van onderzoek en de ontwikkeling van meerdere beeldvormingstechnieken, we kennen slechts een zeer kleine fractie van mogelijke eiwitstructuren - tienduizenden uit miljoenen. Onderzoekers beginnen machinale leermodellen te gebruiken om eiwitstructuren te voorspellen op basis van hun aminozuursequenties, die de ontdekking van nieuwe eiwitstructuren mogelijk zouden kunnen maken. Maar dit is een uitdaging, aangezien verschillende aminozuursequenties zeer vergelijkbare structuren kunnen vormen. En er zijn niet veel structuren om de modellen op te trainen.

In een paper dat wordt gepresenteerd op de International Conference on Learning Representations in mei, de MIT-onderzoekers ontwikkelen een methode voor het "leren" van gemakkelijk berekenbare representaties van elke aminozuurpositie in een eiwitsequentie, aanvankelijk met behulp van 3D-eiwitstructuur als trainingsgids. Onderzoekers kunnen die representaties vervolgens gebruiken als input die machinale leermodellen helpen de functies van individuele aminozuursegmenten te voorspellen - zonder ooit nog gegevens over de structuur van het eiwit nodig te hebben.

In de toekomst, het model kan worden gebruikt voor verbeterde eiwittechnologie, door onderzoekers een kans te geven om beter in te spelen op specifieke aminozuursegmenten en deze te wijzigen. Het model zou onderzoekers zelfs helemaal kunnen afleiden van de voorspelling van de eiwitstructuur.

"Ik wil structuur marginaliseren, " zegt eerste auteur Tristan Bepler, een afgestudeerde student in de groep Computation and Biology in het Computer Science and Artificial Intelligence Laboratory (CSAIL). "We willen weten wat eiwitten doen, en daarvoor is structuur kennen belangrijk. Maar kunnen we de functie van een eiwit voorspellen op basis van alleen de aminozuurvolgorde? De motivatie is om af te stappen van specifiek voorspellende structuren, en ga naar [vinden] hoe aminozuursequenties zich verhouden tot functie."

Deelnemen aan Bepler is co-auteur Bonnie Berger, de Simons Professor of Mathematics aan het MIT met een gezamenlijke facultaire positie in het Department of Electrical Engineering and Computer Science, en hoofd van de groep Computation and Biology.

Leren van structuur

In plaats van de structuur rechtstreeks te voorspellen - zoals traditionele modellen proberen - codeerden de onderzoekers de voorspelde structurele informatie van het eiwit rechtstreeks in representaties. Om dit te doen, ze gebruiken bekende structurele overeenkomsten van eiwitten om toezicht te houden op hun model, naarmate het model de functies van specifieke aminozuren leert.

Ze trainden hun model op ongeveer 22, 000 eiwitten uit de Structural Classification of Proteins (SCOP) database, die duizenden eiwitten bevat die in klassen zijn georganiseerd op basis van overeenkomsten van structuren en aminozuursequenties. Voor elk paar eiwitten, ze berekenden een echte overeenkomstscore, wat betekent hoe dicht ze qua structuur zijn, op basis van hun SCOP-klasse.

De onderzoekers voerden vervolgens hun model willekeurige paren van eiwitstructuren en hun aminozuursequenties, die door een encoder zijn omgezet in numerieke representaties die inbeddingen worden genoemd. Bij natuurlijke taalverwerking inbeddingen zijn in wezen tabellen van enkele honderden getallen die zijn gecombineerd op een manier die overeenkomt met een letter of woord in een zin. De meer vergelijkbare twee inbeddingen zijn, hoe groter de kans dat de letters of woorden samen in een zin verschijnen.

In het werk van de onderzoekers elke inbedding in het paar bevat informatie over hoe vergelijkbaar elke aminozuursequentie is met de andere. Het model lijnt de twee inbeddingen uit en berekent een overeenkomstscore om vervolgens te voorspellen hoe vergelijkbaar hun 3D-structuren zullen zijn. Vervolgens, het model vergelijkt de voorspelde gelijkenisscore met de echte SCOP-overeenkomstscore voor hun structuur, en stuurt een feedbacksignaal naar de encoder.

Tegelijkertijd, het model voorspelt een "contactkaart" voor elke inbedding, die in feite zegt hoe ver elk aminozuur verwijderd is van alle andere in de voorspelde 3D-structuur van het eiwit - in wezen, maken ze contact of niet? Het model vergelijkt ook de voorspelde contactkaart met de bekende contactkaart van SCOP, en stuurt een feedbacksignaal naar de encoder. Dit helpt het model beter te leren waar aminozuren precies vallen in de structuur van een eiwit, die de functie van elk aminozuur verder bijwerkt.

In principe, de onderzoekers trainen hun model door het te vragen te voorspellen of gepaarde sequentie-inbeddingen al dan niet een vergelijkbare SCOP-eiwitstructuur zullen delen. Als de voorspelde score van het model dicht bij de echte score ligt, het weet dat het op de goede weg is; als niet, het past zich aan.

Eiwit ontwerp

Uiteindelijk, voor één ingevoerde aminozuurketen, het model zal één numerieke representatie produceren, of insluiten, voor elke aminozuurpositie in een 3D-structuur. Modellen voor machinaal leren kunnen die sequentie-inbeddingen vervolgens gebruiken om de functie van elk aminozuur nauwkeurig te voorspellen op basis van de voorspelde 3D-structurele "context" - de positie en het contact met andere aminozuren.

Bijvoorbeeld, gebruikten de onderzoekers het model om te voorspellen welke segmenten, indien van toepassing, door het celmembraan gaan. Gegeven alleen een aminozuursequentie, het model van de onderzoekers voorspelde alle transmembraan- en niet-transmembraansegmenten nauwkeuriger dan state-of-the-art modellen.

"Het werk van Bepler en Berger is een belangrijke vooruitgang in het weergeven van de lokale structurele eigenschappen van een eiwitsequentie, " zegt Serafim Batzoglou, een professor in de informatica aan de Stanford University. "De representatie wordt geleerd met behulp van state-of-the-art deep learning-methoden, die grote vooruitgang hebben geboekt in de voorspelling van de eiwitstructuur in systemen zoals RaptorX en AlphaFold. Dit werk heeft de ultieme toepassing in de menselijke gezondheid en farmacogenomica, omdat het de detectie van schadelijke mutaties die eiwitstructuren verstoren, vergemakkelijkt."

Volgende, de onderzoekers willen het model toepassen op meer voorspellingstaken, zoals uitzoeken welke sequentiesegmenten binden aan kleine moleculen, wat cruciaal is voor de ontwikkeling van geneesmiddelen. Ze werken ook aan het gebruik van het model voor eiwitontwerp. Met behulp van hun sequentie-inbeddingen, ze kunnen voorspellen, zeggen, bij welke kleurgolflengten zal een eiwit fluoresceren.

"Ons model stelt ons in staat om informatie over te dragen van bekende eiwitstructuren naar sequenties met onbekende structuur. Door onze inbeddingen als kenmerken te gebruiken, we kunnen de functie beter voorspellen en een efficiënter datagestuurd eiwitontwerp mogelijk maken, " zegt Bepler. "Op een hoog niveau, dat soort eiwittechnologie is het doel."

Berger voegt toe:"Onze machinale leermodellen stellen ons dus in staat om de 'taal' van eiwitvouwing - een van de oorspronkelijke 'Heilige Graal'-problemen - te leren van een relatief klein aantal bekende structuren."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.