science >> Wetenschap >  >> Elektronica

Het versnellen van ontdekkingen op het gebied van biowetenschap en gezondheid:gegevens omzetten in inzichten

Met Paradigm4 kunnen gebruikers gegevens integreren uit bronnen zoals genomische sequencing, biometrische metingen, omgevingsfactoren, en meer in hun onderzoek om nieuwe ontdekkingen mogelijk te maken op een groot aantal gebieden van de biowetenschappen. Krediet:Massachusetts Institute of Technology

Aangezien technologieën zoals eencellige genomische sequencing, verbeterde biomedische beeldvorming, en medische 'internet of things'-apparaten vermenigvuldigen zich, belangrijke ontdekkingen over de menselijke gezondheid worden steeds vaker gevonden in een enorme schat aan complexe biowetenschaps- en gezondheidsgegevens.

Maar zinvolle conclusies trekken uit die gegevens is een moeilijk probleem, waarbij verschillende gegevenstypen bij elkaar moeten worden gezocht en enorme gegevenssets moeten worden gemanipuleerd als reactie op uiteenlopende wetenschappelijke onderzoeken. Het probleem gaat evenzeer over informatica als over andere wetenschapsgebieden. Dat is waar Paradigm4 om de hoek komt kijken.

Het bedrijf, opgericht door Marilyn Matz SM '80 en Turing Award winnaar en MIT Professor Michael Stonebraker, helpt farmaceutische bedrijven, Onderzoeksinstituten, en biotechbedrijven zetten data om in inzichten.

Het bereikt dit met een computationeel databasebeheersysteem dat van de grond af is gebouwd om de diverse, veelzijdige gegevens aan de grenzen van life science-onderzoek. Dat omvat gegevens uit bronnen als nationale biobanken, klinische proeven, het medische internet der dingen, menselijke celatlassen, medische beelden, omgevingsfactoren, en multi-omics, een gebied dat de studie van genomen omvat, microbioom, metabolomen, en meer.

Bovenop de unieke architectuur van het systeem, het bedrijf heeft ook datavoorbereiding gebouwd, metadatabeheer, en analysetools om gebruikers te helpen de belangrijke patronen en correlaties te vinden die op de loer liggen binnen al die cijfers.

In veel gevallen, klanten onderzoeken datasets die volgens de oprichters te groot en complex zijn om effectief te worden weergegeven door traditionele databasebeheersystemen.

"We willen wetenschappers en datawetenschappers in staat stellen dingen te doen die ze voorheen niet konden doen door het hen gemakkelijker te maken om te gaan met grootschalige berekeningen en machinaal leren van uiteenlopende gegevens, " zegt Matz. "We helpen wetenschappers en bio-informatici met collaboratieve, reproduceerbaar onderzoek om moeilijke vragen sneller te stellen en te beantwoorden."

Een nieuw paradigma

Stonebraker is al tientallen jaren een pionier op het gebied van databasemanagementsystemen. Hij heeft negen bedrijven opgericht, en zijn innovaties hebben de standaard gezet voor de manier waarop moderne systemen mensen in staat stellen om grote datasets te organiseren en te openen.

Een groot deel van Stonebrakers carrière was gericht op relationele databases, die gegevens in kolommen en rijen ordenen. Maar in het midden van de jaren 2000, Stonebraker realiseerde zich dat veel gegevens die worden gegenereerd, beter niet in rijen of kolommen kunnen worden opgeslagen, maar in multidimensionale arrays.

Bijvoorbeeld, satellieten breken het aardoppervlak in grote vierkanten, en GPS-systemen volgen de beweging van een persoon door die vierkanten in de loop van de tijd. Die operatie omvat verticale, horizontaal, en tijdmetingen die niet gemakkelijk kunnen worden gegroepeerd of anderszins gemanipuleerd voor analyse in relationele databasesystemen.

Stonebraker herinnert zich dat zijn wetenschappelijke collega's klaagden dat de beschikbare databasebeheersystemen te traag waren om te werken met complexe wetenschappelijke datasets op gebieden als genomica, waar onderzoekers de relaties bestuderen tussen multi-omics-gegevens op populatieschaal, fenotypische gegevens, en medische dossiers.

"[Relationele databasesystemen] scannen horizontaal of verticaal, maar niet allebei, Stonebraker legt uit. "Dus je hebt een systeem nodig dat beide doet, en dat vereist een opslagmanager onderaan het systeem die in staat is om zowel horizontaal als verticaal door een zeer grote array te bewegen. Dat is wat Paradigm4 doet."

In 2008, Stonebraker begon met het ontwikkelen van een databasebeheersysteem bij MIT dat gegevens opsloeg in multidimensionale arrays. Hij bevestigde dat de aanpak grote efficiëntievoordelen biedt, waardoor analytische instrumenten op basis van lineaire algebra, waaronder vele vormen van machine learning en statistische gegevensverwerking, op nieuwe manieren worden toegepast op enorme datasets.

Stonebraker besloot in 2010 het project om te vormen tot een bedrijf. toen hij samenwerkte met Matz, een succesvolle ondernemer die Cognex Corporation mede heeft opgericht, een groot industrieel machinevisiebedrijf dat in 1989 naar de beurs ging. De oprichters en hun team gingen aan de slag om de belangrijkste functies van het systeem uit te werken, inclusief de gedistribueerde architectuur waarmee het systeem op goedkope servers kan draaien, en de mogelijkheid om automatisch gegevens op te schonen en te ordenen op handige manieren voor gebruikers.

De oprichters omschrijven hun databasebeheersysteem als een rekenmachine voor wetenschappelijke gegevens, en ze hebben het SciDB genoemd. Bovenop SciDB, ontwikkelden ze een analyseplatform, de REVEAL-ontdekkingsengine genoemd, gebaseerd op de dagelijkse onderzoeksactiviteiten en ambities van gebruikers.

"Als je een wetenschapper of datawetenschapper bent, De REVEAL- en SciDB-producten van Paradigm zorgen voor al het gekibbel en rekenkundige 'sanitair en bedrading, " zodat u zich geen zorgen hoeft te maken over toegang tot gegevens, gegevens verplaatsen, of het opzetten van parallel gedistribueerd computergebruik, " zegt Matz. "Je gegevens zijn klaar voor de wetenschap. Stel gewoon je wetenschappelijke vraag en het platform regelt al het databeheer en de berekening voor je."

SciDB is ontworpen om te worden gebruikt door zowel wetenschappers als ontwikkelaars, zodat gebruikers met het systeem kunnen communiceren via grafische gebruikersinterfaces of door gebruik te maken van statistische en programmeertalen zoals R en Python.

"Het was heel belangrijk om oplossingen te verkopen, geen bouwstenen, ", zegt Matz. "Een groot deel van ons succes in de life sciences met topfarmaceutica en biotech-bedrijven en onderzoeksinstituten brengt hen onze REVEAL-suite van toepassingsspecifieke oplossingen voor problemen. We're not handing them an analytical platform that's a set of LEGO blocks; we're giving them solutions that handle the data they deal with daily, and solutions that use their vocabulary and answer the questions they want to work on."

Accelerating discovery

Today Paradigm4's customers include some of the biggest pharmaceutical and biotech companies in the world as well as research labs at the National Institutes of Health, Stanford universiteit, en elders.

Customers can integrate genomic sequencing data, biometric measurements, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.

Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.

"If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."

Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.

In the life sciences, echter, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Langs de lijn, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.

"The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.