science >> Wetenschap >  >> Fysica

Nieuwe algoritmen halen biologische structuur uit beperkte gegevens

Experimentele opstelling voor een diffractie-experiment met één deeltje. Krediet:Peter Zwart, Berkeley Lab

Het begrijpen van de 3D-moleculaire structuur van belangrijke nano-objecten zoals eiwitten en virussen is cruciaal in biologie en geneeskunde. Met recente ontwikkelingen in röntgentechnologie, wetenschappers kunnen nu diffractiebeelden van individuele deeltjes verzamelen, waardoor onderzoekers uiteindelijk moleculen bij kamertemperatuur kunnen visualiseren.

Echter, het bepalen van de 3D-structuur van deze diffractie-experimenten met één deeltje is een belangrijke hindernis. Bijvoorbeeld, huidige data-acquisitiesnelheden zijn zeer beperkend, meestal resulterend in minder dan 10 bruikbare snapshots per minuut, beperking van het aantal functies dat kan worden opgelost. Aanvullend, de beelden zijn vaak sterk beschadigd door ruis en andere experimentele artefacten, waardoor het moeilijk is om de gegevens goed te interpreteren.

Om deze uitdagingen aan te gaan, een team van onderzoekers van het Lawrence Berkeley National Laboratory (Berkeley Lab) heeft een nieuw algoritmisch raamwerk ontwikkeld, multi-tiered iterative phasing (M-TIP) genaamd, dat gebruik maakt van geavanceerde wiskundige technieken om de 3D-moleculaire structuur te bepalen uit zeer schaarse sets van ruis, gegevens van één deeltje. Deze aanpak stelt onderzoekers in wezen in staat om meer informatie te extraheren uit experimenten met beperkte gegevens. Toegepaste wiskundigen Jeffrey Donatelli en James Sethian, en fysisch biowetenschapper Peter Zwart introduceerde dit raamwerk door uit te breiden op een algoritme dat ze oorspronkelijk hadden ontwikkeld om de reconstructie van een gerelateerd röntgenverstrooiingsexperiment op te lossen, fluctuatie röntgenverstrooiing genoemd. Een paper waarin het M-TIP-raamwerk wordt beschreven, werd op 26 juni gepubliceerd in de Proceedings van de National Academy of Sciences .

"Deze aanpak heeft het potentieel om het veld te revolutioneren, ", zegt Zwart. "Gezien het feit dat het moeilijk is om veel goede data te krijgen, benaderingen die de hoeveelheid gegevens verminderen die nodig zijn om 3D-nanoobjecten succesvol af te beelden, zullen waarschijnlijk een warm welkom krijgen."

Donatelli, Sethian en Zwart maken allemaal deel uit van CAMERA (The Centre for Advanced Mathematics for Energy Research Applications), wiens missie het is om de allernieuwste wiskunde te creëren die nodig is om gegevens van veel van de meest geavanceerde wetenschappelijke faciliteiten van DOE te verwerken. CAMERA wordt gezamenlijk gefinancierd door de programma's Advanced Scientific Computing Research en Basic Energy Sciences in het Office of Science van DOE.

Diffractie van één deeltje

De recente komst van röntgenvrije-elektronenlasers (XFEL's) heeft verschillende nieuwe experimentele technieken mogelijk gemaakt voor het bestuderen van biomoleculen die niet haalbaar waren met traditionele lichtbronnen. Een dergelijke techniek is diffractie van één deeltje, die een groot aantal foto's van röntgendiffractie verzamelt met slechts een enkel deeltje in de bundel. Door gebruik te maken van de extreme kracht van XFEL's, onderzoekers kunnen zelfs van de kleinste deeltjes meetbare signalen verzamelen.

Een voorbeeld van een schoon diffractiebeeld van één deeltje (links) en hetzelfde diffractiebeeld na ruisvervuiling (rechts). Krediet:Peter Zwart, Berkeley Lab

Een groot voordeel van deze diffractietechniek met één deeltje is de mogelijkheid om te bestuderen hoe verschillende kopieën van een molecuul van vorm veranderen of veranderen. Aangezien elk beeld afkomstig is van een enkel deeltje, deze variaties kunnen worden vastgelegd in het experiment, in tegenstelling tot traditionele beeldvormingsmethoden zoals kristallografie of kleine-hoek röntgenverstrooiing, waar onderzoekers alleen een gemiddelde kunnen meten over alle verschillende toestanden van het moleculaire monster.

Echter, het bepalen van de 3D-structuur uit diffractiegegevens van één deeltje is een uitdaging. Beginnen, wanneer elk deeltje wordt afgebeeld, de oriëntatie is onbekend en moet worden hersteld om de gegevens correct te combineren tot een 3D-diffractievolume. Dit probleem wordt nog groter als het molecuul verschillende vormen kan aannemen, waarvoor aanvullende classificatie van de afbeeldingen vereist is. Verder, fase-informatie wordt niet vastgelegd in diffractiebeelden en moet worden hersteld om de reconstructie te voltooien. Eindelijk, zelfs met krachtige XFEL's, het aantal verstrooide fotonen is erg klein, resulterend in extreem luidruchtige beelden, die verder kan worden verontreinigd door systematische achtergrond- en detectoruitlezingsproblemen.

Eerdere benaderingen zijn gebaseerd op het oplossen van het reconstructieprobleem in afzonderlijke stappen, waarbij elk individueel probleem afzonderlijk wordt aangepakt. Helaas, een nadeel van deze seriële benaderingen is dat ze niet gemakkelijk gebruik maken van eerdere bekende kenmerken over hoe het molecuul eruit ziet. In aanvulling, elke fout die in de ene stap is begaan, wordt doorgegeven aan de volgende, resulterend in een verdere toename van de fout. Deze "fout-sneeuwbal" verslechtert uiteindelijk de kwaliteit van de reconstructie die in de laatste stap is verkregen.

Beste van twee werelden

In plaats van de rekenproblemen in afzonderlijke stappen op te lossen, het M-TIP-algoritme van het team lost alle delen van het probleem gelijktijdig op. Deze aanpak maakt gebruik van eerdere informatie over de structuur om de vrijheidsgraden van het probleem in alle stappen sterk te verminderen, en daardoor de benodigde informatie voor een 3D-reconstructie te verminderen.

"Standaard black-box-optimalisatietechnieken kunnen voorkennis in de reconstructie opnemen, maar de hele structuur van het probleem weggooien, overwegende dat het oplossen in volledig afzonderlijke seriële substappen de structuur van het probleem exploiteert, maar bijna alle eerdere informatie weggooit over hoe de oplossing eruit zou kunnen zien, "Zei Donatelli. "M-TIP maakt gebruik van het beste van twee werelden door de structuur van het probleem te benutten om de berekening op te splitsen in verschillende beheersbare brokken en vervolgens iteratief over al deze brokken te verfijnen om tot een oplossing te komen die consistent is met zowel de gegevens en eventuele structurele beperkingen."

Met behulp van deze techniek, het team was in staat om de 3D-structuur te bepalen op basis van extreem lage beeldtellingen van gesimuleerde gegevens, slechts 6 tot 24 afbeeldingen voor ruisvrije gegevens en 192 afbeeldingen van sterk vervuilde gegevens.

Origineel retinoblastoom-eiwit (links) en reconstructies met behulp van het M-TIP-algoritme met 24 schone afbeeldingen (midden) en 192 afbeeldingen met ruis (rechts), zoals weergegeven in figuur 2. Credit:Peter Zwart, Berkeley Lab

Nieuwe wegen inslaan

Dit werk maakt deel uit van een nieuw samenwerkingsinitiatief tussen SLAC National Accelerator Laboratory, CAMERA, het National Energy Research Scientific Computing Center (NERSC) en Los Alamos National Laboratory als onderdeel van DOE's Exascale Computing Project (ECP). Het doel van het project is om de rekenhulpmiddelen te ontwikkelen die nodig zijn om realtime gegevensanalyse uit te voeren van experimenten die worden uitgevoerd bij Linac Coherent Light Source (LCLS) van SLAC. Met upgrades naar de bundellijn, LCLS-II is van plan meerdere terabytes aan gegevens per seconde te genereren, die, bijvoorbeeld, zullen wetenschappers in staat stellen om de huidige experimenten met één deeltje aanzienlijk uit te breiden. Om al deze gegevens in realtime te analyseren, zijn nieuwe algoritmen en grote rekenmachines nodig. Het M-TIP-algoritme zal als onderdeel van dit proces dienen.

"Dit zijn enkele van de meest uitdagende problemen in computationele datawetenschap, " zegt Sethian. "Om ze aan te pakken, we moeten gebruik maken van een reeks technologieën, inclusief opkomende exascale computerarchitecturen, geavanceerde hogesnelheidsnetwerken, en de meest geavanceerde wiskundige algoritmen die beschikbaar zijn. Door CAMERA-wetenschappers samen te brengen met exascale-toepassingsprojecten, is de deur geopend voor het bouwen van hulpmiddelen om enkele dringende problemen in de biologie en materiaalwetenschappen aan te pakken."

De onderzoekers merken op dat dit slechts de eerste stappen zijn. Om de methode klaar te maken voor gebruik, andere hindernissen moeten worden overwonnen.

"Experimentele wetenschap is rommelig, ", zegt Zwart. "Er zijn aanvullende experimentele effecten waarmee we rekening moeten houden om de best mogelijke resultaten te krijgen."

"Gelukkig, M-TIP is een zeer modulaire techniek, " voegt Donatelli toe, "dus, het is zeer geschikt voor het modelleren van veel van deze aanvullende effecten zonder dat het kernalgoritme van de algoritmes hoeft te worden gewijzigd."

Het team werkt momenteel aan het bestuderen van deze effecten als onderdeel van het Single Particle Initiative, een grote, multi-institutionele samenwerking gericht op het aanpakken van theoretische en praktische problemen in X-FEL-gebaseerde beeldvorming met één molecuul, uiteindelijk leidend tot het verstrekken van de wetenschappelijke gemeenschap met de tools die nodig zijn om nieuwe wegen te bewandelen in de biologie, geneeskunde en energiewetenschappen.