science >> Wetenschap >  >> Biologie

The Bioteque:een computertool om biologische kennis te harmoniseren

Bioteque is een bron van descriptoren voor verschillende biologische entiteiten. Door deze kennisgrafiek te doorlopen door specifieke entiteiten en relaties, hebben we meer dan 1000 paden (ook wel metapaths genoemd) verkend die werden gecodeerd in numerieke vectoren en beschikbaar werden gesteld voor de gemeenschap. Krediet:IRB Barcelona

De snelle ontwikkeling van de verschillende disciplines op het gebied van biologisch en biomedisch onderzoek (zoals genomics, proteomics en transcriptomics) in de afgelopen decennia heeft geleid tot een exponentiële groei van de hoeveelheid beschikbare biologische data. Zo zijn ze bij het European Bioinformatics Institute (EMBL-EBI) in slechts 6 jaar tijd van het beheren van een volume van 40 petabyte naar het werken met 250 petabyte gegaan.

Wetenschappers onder leiding van Dr. Patrick Aloy, ICREA-onderzoeker en hoofd van het laboratorium voor structurele bio-informatica en netwerkbiologie bij IRB Barcelona, ​​hebben een rekentool ontwikkeld om deze gegevens te harmoniseren, integreren en vereenvoudigen. Het resultaat is een kennisgrafiek die informatie geeft over hoe verschillende biologische entiteiten aan elkaar gerelateerd zijn, inclusief meer dan 30 miljoen functionele interacties.

De Bioteque werkt door verschillende niveaus van biologische complexiteit te integreren en kan dus rapporteren over bijvoorbeeld twee genen die verwant zijn, of ze fysiek interageren, of ze actief zijn in hetzelfde type cellen en of ze gerelateerd zijn aan dezelfde ziekte . Het kan ook de gevoeligheid of resistentie van een type cel voor een specifiek medicijn voorspellen.

"Deze computerhulpbron die we hebben ontwikkeld, is een van de eerste die is gericht op het verenigen van biologische informatie en het is de enige die een dergelijke diversiteit en hoeveelheid gegevens aan de orde stelt. Het geeft op een gemakkelijke en geharmoniseerde manier toegang tot praktisch alle biologische kennis momenteel beschikbaar, en het heeft een enorm potentieel om biomedisch onderzoek te versnellen", legt Aloy uit.

Ter illustratie van 4 verschillende descriptoren voor 4 soorten biologische entiteiten. Krediet:IRB Barcelona

Bijna 1.000 descriptoren voor 12 biologische entiteiten

De informatie in de Bioteque is gestructureerd in 12 soorten biologische entiteiten, zoals gen, ziekte, weefsel, cel, enz. Voor elk van deze entiteiten houdt de tool rekening met een reeks descriptoren of kenmerken, bijvoorbeeld het patroon van mutaties van een gen, het profiel van fysieke interacties van de resulterende eiwitten, de expressie van het gen in verschillende celtypes, of de relatie met verschillende ziekten. Van de 12 biologische entiteiten omvat het systeem ongeveer 1.000 soorten descriptoren.

"We hebben met informatie uit 150 verschillende databases gewerkt, dus we moesten ze eerst integreren, dat wil zeggen, ze allemaal in dezelfde 'taal' zetten. En toen hebben we die kennis omgezet in numerieke descriptoren die door algoritmen konden worden geïnterpreteerd, en dat manier waarop we deze netwerken en verbindingen op een computationele manier zouden kunnen exploiteren", concludeert Adrià Fernández, de eerste auteur van het artikel en een doctoraatsstudent in hetzelfde laboratorium.

Drie groepen worden belicht waar ziekten en hun behandelingen worden geassocieerd. Krediet:IRB Barcelona

De Bioteque zal periodiek worden uitgebreid met nieuwe databases, zoals deze openbaar worden gemaakt. Zowel de tool als de databases en algoritmen zijn open access en online beschikbaar.

Het onderzoek is gepubliceerd in Nature Communications . + Verder verkennen

Diepgaande machine learning completeert informatie over een miljoen bioactieve moleculen