science >> Wetenschap >  >> Fysica

Het opnieuw bedenken van de vorm van ruis leidt tot verbeterde moleculaire modellen

Krediet:CC0 Publiek Domein

Vasthoudendheid komt van nature voor een man die afkomstig is uit de 'muilezelhoofdstad van de wereld'. Die eigenschap heeft Columbia gestaan, Tennessee, native Elliot Perryman komt goed van pas als stagiair bij het Lawrence Berkeley National Laboratory (Berkeley Lab). Laatste val, hij begon te werken met stafwetenschapper Peter Zwart in het Center for Advanced Mathematics for Energy Research Applications (CAMERA) via het Berkeley Lab Undergraduate Research-programma.

CAMERA heeft tot doel gebieden in de experimentele wetenschap te identificeren die kunnen worden ondersteund door nieuwe toegepaste wiskundige inzichten. Deze interdisciplinaire onderzoekers ontwikkelen de nodige algoritmische tools en leveren deze als gebruiksvriendelijke software. Zwart zette Perryman, een hoofdvak computerwetenschappen en natuurkunde aan de Universiteit van Tennessee, over een project dat hij vergeleek met 'rondlopen in een donkere kamer op zoek naar een kat'.

De ongrijpbare katachtige in dit geval was een wiskundig probleem dat de experimentele kristallografiegemeenschap al enige tijd bemoeilijkt:hoe de aanwezigheid van ruis in gegevens op een meer realistische manier te modelleren.

Kristallografie is een onmisbaar hulpmiddel voor het bepalen van de atomaire structuren van moleculen, die op hun beurt onderzoekers inzicht geven in hun gedrag en functie. Wanneer een gerichte lichtstraal wordt gericht op een gezuiverd, kristallijn monster, het licht buigt van de atomen af ​​en een detector registreert het afgebogen licht. Terwijl het monster wordt geroteerd, tweedimensionale beelden van de diffractiepatronen worden vastgelegd in verschillende oriëntaties. Vervolgens worden algoritmen toegepast op de diffractiegegevens om een ​​driedimensionale kaart van de rangschikking van atomen in het monster te reconstrueren.

Wanneer u bepaalt, of oplossen, een structuur van diffractiegegevens, je moet het model relateren aan je waarnemingen, legde Zwart uit, die deel uitmaakt van de Molecular Biophysics and Integrating Bioimaging Division van Berkeley Lab. De doelfuncties die hiervoor worden gebruikt, worden maximale waarschijnlijkheidsfuncties genoemd. Ze werken heel goed als je gegevens goed zijn, hij merkt op, maar wanneer de hoeveelheid ruis in de gegevens toeneemt - wat het geval is bij hogere resoluties - kunnen de huidige methoden niet het best mogelijke antwoord bieden.

De reden waarom doelfuncties in dergelijke gevallen tekortschieten, is dat er één stap in de berekening is, een integratie, dat kan niet analytisch worden gedaan, dat wil zeggen, met potlood-en-papier wiskunde die je een uitdrukking geeft die je in code kunt omzetten. Eerdere pogingen om dit probleem aan te pakken, hebben ofwel de integratiestap gewoon genegeerd, of kom met benaderingen die alleen werken in experiment- of techniekspecifieke scenario's. Dus Zwart en Perryman gingen terug naar de basis, het proberen van een groot aantal verschillende machine learning-benaderingen om numeriek een zo exact mogelijke benadering op de meest efficiënte manier af te leiden.

Driekwart van Perrymans stage van 16 weken, de twee kwamen tot de conclusie dat de meeste paden die aanvankelijk veelbelovend leken, eigenlijk doodlopende wegen waren. "Ik zou dingen proberen en het duurde een tijdje om erachter te komen of iets een succes of een mislukking is, omdat, met een totaal nieuw probleem, je weet het gewoon niet, "Zei Perryman. Het klikte eindelijk toen ze zich realiseerden dat een algemene veronderstelling die mensen al 30 jaar maken, kan worden verbeterd.

universiteit van Tennessee undergrad Elliot Perryman (rechts) werkte samen met biosciences-stafwetenschapper Peter Zwart tijdens zijn herfst 2019 Berkeley Lab Undergraduate Research (BLUR) stage. Krediet:Thor Swift/Berkeley Lab

De aanname heeft te maken met de vorm van de ruis in de data. De algemeen aanvaarde opvatting is dat experimentele fouten vallen in een klassieke normale verdeling, zoals de Gauss-klokkromme, waar bijna 100 procent van de waarnemingen binnen 3,5 standaarddeviaties valt. Maar een meer realistische curve heeft dikkere "staarten" vanwege zeldzame maar voorspelbare gebeurtenissen. "Door deze iets realistischere foutmodellen in kristallografische doelfuncties op te nemen, kunnen we de aanwezigheid van wat normaal uitschieters worden genoemd op een meer realistische manier modelleren, ' zei Zwart.

hun methode, die ze in het tijdschrift publiceerden Acta Crystallographica Sectie D:Structurele Biologie , is breed toepasbaar in het experimentele kristallografieveld en stelt onderzoekers in staat om beter gebruik te maken van marginale of lage kwaliteit diffractiegegevens. Dit onderzoek werd ondersteund door National Institutes of Health en CAMERA wordt gefinancierd door het Office of Science van het Amerikaanse ministerie van Energie.

Een postdoctoraal onderzoeker in het lab van Zwart werkt nu aan het omzetten van het wiskundige conceptraamwerk in een toepassing die uiteindelijk kan worden geïmplementeerd in de Phenix-softwaresuite. MBIB-directeur Paul Adams leidt de ontwikkeling van Phenix, een verzameling tools voor geautomatiseerde structuuroplossing die veel wordt gebruikt door de kristallografiegemeenschap.

"Elliot heeft veel tijd en energie gestoken in benaderingen die uiteindelijk niet uitkwamen, maar waren cruciaal voor de totale inspanning omdat hij in staat was om zelf veel te leren en mij tegelijkertijd op te leiden, " voegde Zwart eraan toe. En de ervaring die Perryman opdeed, hielp hem een ​​vervolgstage te krijgen bij Tess Smidt, een postdoc in de afdeling Computational Research, en uiteindelijk een functie als student-assistent waar hij samen met CAMERA-postdoc Marcus Noack werkte aan machinale besluitvorming voor experimentele wetenschappen.

Het project waaraan Perryman en Noack hebben gewerkt, heeft tot doel de traditionele methoden van geautomatiseerde beeldbemonstering op hun kop te zetten. Ze stellen voor om een ​​willekeurige benadering te gebruiken die ordes van grootte efficiënter is en een voorspelling geeft van hoe het beeld er op een bepaalde locatie uit zou kunnen zien, evenals een indicatie van de onzekerheid van die voorspelling. Perryman heeft gewerkt aan een gedistribueerde optimalisatiebenadering, genaamd HGDL (Hybrid Global Deflated Local), om een ​​kritische optimalisatiefunctie te verbeteren.

Er zijn veel uitdagende computationele problemen in de biowetenschappen die kunnen worden aangepakt met benaderingen die al zijn ontwikkeld door toegepaste wiskundigen, merkte Zwart op. "Bepaalde ideeën hebben gewoon meer tijd nodig om door te dringen in andere gebieden, " zei hij. "Daarom is werken binnen CAMERA zo leuk:wiskundigen hebben een andere kijk op de wereld, een andere reeks vaardigheden, en lees verschillende kranten. Maar ze kennen de proefvelden niet zoals structuurbiologen dat wel doen. Het is belangrijk om deze mensen bij elkaar te brengen, zodat we problemen binnen de biowetenschappen kunnen identificeren en oplossingen kunnen vinden binnen wiskunde en informatica."

"Dat is een van de grote voordelen van deze stage geweest, " zei Perryman. "Ik begon in de kernfysica, dus ik was gewoon bekend met de soorten problemen op dat gebied. Maar na het werken met Peter, of werken met Tess afgelopen lente, of Marcus, Ik realiseer me dat er zoveel analoge problemen zijn. Leuk vinden, als je hetzelfde probleem hebt, Marcus zou het in termen van een soort geofysisch ding inlijsten, en Tess zou zeggen dat het een geometrieprobleem is, maar het is waarschijnlijk ook een biologisch probleem."

Uiteindelijk, Perryman liet zich door geen van deze hardnekkige uitdagingen afschrikken:"Er zijn zoveel interessante projecten, het is moeilijk om niet enthousiast over hen te worden."