science >> Wetenschap >  >> Astronomie

Sterrenkijken met computers:wat machine learning ons kan leren over de kosmos

Het Vera Rubin Observatorium zal de LSST-camera huisvesten, die in de loop van 10 jaar gegevens zal verzamelen over 37 miljard sterrenstelsels en sterren. Wetenschappers ontwikkelen machine learning-programma's om de stortvloed aan gegevens te analyseren. Krediet:M. Park/Inigo Films/LSST/AURA/NSF

Starend naar de nachtelijke hemel in een landelijke omgeving, je zult waarschijnlijk de stralende maan zien omringd door sterren. Als je geluk hebt, je zou het verste ding dat met het blote oog zichtbaar is kunnen zien - de Andromeda-melkweg. Het is de dichtstbijzijnde buur van onze melkweg, De melkweg. Maar dat is slechts het kleinste deel van wat er is. Wanneer de Legacy Survey of Space and Time (LSST)-camera van het Department of Energy (DOE) in het Vera Rubin Observatory van de National Science Foundation in 2022 wordt ingeschakeld, het zal in de loop van een decennium foto's maken van 37 miljard sterrenstelsels en sterren.

De output van deze enorme telescoop zal onderzoekers overspoelen met data. In die 10 jaar, de LSST-camera duurt 2, 000 foto's voor elke patch van de zuidelijke hemel die het bedekt. Elke afbeelding kan maximaal een miljoen objecten bevatten.

"Wat de omvang van de gegevens betreft, de hoeveelheid gegevens, de complexiteit van de gegevens, ze gaan veel verder dan de huidige datasets die we hebben, " zei Rachel Mandelbaum, een professor aan de Carnegie Mellon University en een woordvoerder van de LSST Dark Energy Science Collaboration. "Dit opent een enorme hoeveelheid ontdekkingsruimte."

Wetenschappers bouwen de LSST-camera niet alleen om mooie foto's te maken. Ze willen identificeren, categoriseren, en meet hemellichamen die informatie kunnen onthullen over de structuur van het universum. Om donkere energie en andere kosmologische mysteries te begrijpen, zijn gegevens nodig over supernova's en sterrenstelsels. Onderzoekers kunnen zelfs geheel nieuwe klassen van objecten vinden.

"Er zullen een aantal objecten zijn die we nog nooit eerder hebben gezien, want dat is het punt van nieuwe ontdekking, " zei Renée Hložek, een assistent-professor astrofysica aan de Universiteit van Toronto, die werkt met de LSST Dark Energy Science Collaboration. "We zullen een stelletje vinden van wat we gekken noemen, of afwijkingen."

Het enorme volume en de vreemdheid van de gegevens maken het moeilijk om te analyseren. Terwijl een sterrenkijker die nieuw is in een gebied misschien het veld in gaat met een lokale expert, wetenschappers hebben niet zo'n gids voor nieuwe delen van het universum. Dus ze maken ze zelf. nauwkeuriger, ze maken veel verschillende handleidingen die hen kunnen helpen deze objecten te identificeren en te categoriseren. Astrofysici die worden ondersteund door het DOE Office of Science, ontwikkelen deze handleidingen in de vorm van computermodellen die afhankelijk zijn van machine learning om de LSST-gegevens te onderzoeken. Machine learning is een proces waarbij een computerprogramma in de loop van de tijd leert over de relaties in een set gegevens.

Computerprogramma's die leren

Het snel verwerken van data is een must voor wetenschappers in de Dark Energy Science Collaboration. Wetenschappers moeten weten dat de camera precies op de juiste plaats wijst en elke keer de juiste gegevens opneemt. Deze snelle verwerking helpt hen ook te weten of er iets is veranderd in dat deel van de lucht sinds de laatste keer dat ze er foto's van hebben gemaakt. Door de huidige foto van de vorige af te trekken, zien ze of er een teken is van een interessant hemellichaam of fenomeen.

Ze moeten ook veel foto's combineren op een manier die nauwkeurig en bruikbaar is. Dit project onderzoekt de diepten van het heelal om beelden te maken van enkele van de zwakste sterren en sterrenstelsels. Het zal ook foto's maken in minder dan ideale atmosferische omstandigheden. Compenseren, wetenschappers hebben programma's nodig die afbeeldingen kunnen combineren om de duidelijkheid te verbeteren.

Machine learning kan deze uitdagingen aanpakken, naast het verwerken van de enorme hoeveelheid gegevens. Naarmate deze programma's meer gegevens analyseren, hoe nauwkeuriger ze worden. Net als iemand die een sterrenbeeld leert identificeren, ze krijgen na verloop van tijd een beter oordeel.

"Veel wetenschappers beschouwen machine learning als de meest veelbelovende optie voor het classificeren van bronnen op basis van fotometrische metingen (metingen van lichtintensiteit), " zei Eva Kovacs, een natuurkundige bij DOE's Argonne National Laboratory.

Maar machine learning-programma's moeten zichzelf leren voordat ze een stapel nieuwe gegevens kunnen aanpakken. Er zijn twee manieren om een ​​machine learning-programma te 'trainen':zonder toezicht en onder toezicht.

Ongecontroleerd machine learning is alsof iemand zichzelf leert over sterren door alleen maar hun nachtelijke observaties. Het programma traint zichzelf op niet-gelabelde gegevens. Hoewel machine learning zonder toezicht afbeeldingen kan groeperen en uitbijters kan identificeren, het kan ze niet categoriseren zonder een soort gids.

Gesuperviseerde machine learning is als een nieuweling die vertrouwt op een handleiding. De onderzoekers voeren het een enorme reeks gegevens in die zijn gelabeld met de klassen van elk object. Door de gegevens steeds opnieuw te bekijken, het programma leert de relatie tussen de waarneming en de labels. Deze techniek is vooral handig voor het classificeren van objecten in bekende groepen.

In sommige gevallen, de onderzoekers geven het programma ook een specifieke reeks functies om naar te zoeken, zoals helderheid, vorm, of kleur. Ze bieden richtlijnen over hoe belangrijk elke functie is in vergelijking met de andere. In andere programma's, het machine learning-programma zoekt zelf de relevante functies uit.

Echter, de nauwkeurigheid van machine learning onder toezicht hangt af van het hebben van een goede trainingsset, met alle diversiteit en variabiliteit van een echte. Voor foto's van de LSST-camera, die variabiliteit kan strepen zijn van satellieten die door de lucht bewegen. Ook de etikettering moet uiterst nauwkeurig zijn.

"We moeten zoveel mogelijk natuurkunde in de trainingssets stoppen, "zei Mandelbaum. "Het neemt niet weg van ons de last om de fysica te begrijpen. Het verplaatst het gewoon naar een ander deel van het probleem."

Mijlmarkeringen op de Space Highway

Enkele van de meest interessante objecten van het universum blijven niet lang hangen. Voorbijgaande objecten lijken erg helder, vervagen gedurende een bepaalde periode, en dan donker worden. Supernova's - enorm exploderende sterren - zijn een soort voorbijgaand object. Variabele objecten veranderen in de loop van de tijd op een consistente manier in helderheid. Bepaalde soorten van beide kunnen "standaardkaarsen, " items die wetenschappers kunnen gebruiken om afstand tot de aarde te meten, zoals mijlmarkeringen op een snelweg. Deze standaardkaarsen geven informatie over de grootte en geschiedenis van het heelal.

"Als je op een bepaalde nacht naar genoeg sterrenstelsels kijkt, je ontdekt bijna gegarandeerd een supernova, ' zei Kovacs.

Om te weten of een supernova nuttig zal zijn als een standaardkaars of niet, wetenschappers moeten weten welk type het is. Type Ia-supernova's kunnen standaardkaarsen zijn. Net zoals het gebruik van ervaring sterrenkijkers kan vertellen of ze naar Mars of Venus kijken, een computerprogramma kan zijn training gebruiken om een ​​supernova uit een afbeelding te classificeren.

"De kleine vlieg in de zalf in dit alles is dat de Type Ia-supernova's niet echt standaardkaarsen zijn. Ze hebben een zekere mate van variatie, " zei Kovacs. "Het begrijpen van die variatie ... ligt eigenlijk aan de basis van het maken van dit alles."

Kovacs en haar medewerkers hebben een programma gemaakt dat de kleuren van supernova's gebruikt om ze in categorieën te sorteren. Eerder, wetenschappers hebben algoritmen voor machine learning getraind door ze de helderheid van een specifieke supernova in de loop van de tijd te laten vergelijken met een model dat is gebaseerd op Type Ia-supernova. Maar de programma's zouden waarschijnlijk te veel supernova's verkeerd classificeren als Type Ia. Haar team pakte het anders aan. Ze identificeerden een set van 17 kenmerken die de lichtcurven (tijdsvariatie van lichtintensiteit) van supernova's karakteriseren. Met behulp van een trainingsset van enkele duizenden gesimuleerde supernova's, ze waren in staat om classificaties te bereiken met een extreem hoge nauwkeurigheid.

Uitzoeken hoe ver kosmische objecten van de aarde zijn, is een ander veelbelovend gebied voor machine learning. Eerder, wetenschappers vertrouwden op spectroscopische telescopen die glasvezel gebruiken om de afstanden van deze objecten nauwkeurig te meten. Maar de LSST-camera gaat er meer dan 1 vinden 000 voorbijgaande objecten per nacht. Dat is te veel om op te volgen met deze techniek. Mandelbaum en haar team ontwikkelden een machine learning-programma dat deze afstand nauwkeurig kan inschatten op basis van alleen foto's. Het kan ook spectroscopische gegevens aanpassen en opnemen als deze beschikbaar zijn.

Maar supernova's zijn niet de enige objecten die als standaardkaarsen kunnen worden gebruikt. In feite, astrofysici gebruiken vaak andere objecten om hun afstand te kalibreren. Mandelbaum en haar team gebruikten machine learning om andere potentiële standaardkaarsen te vinden. Door de programmagegevens over veel variabele sterren te voeren, ze ontdekten dat het functies kon bedenken en toepassen die een goede standaardkaars identificeren zonder eerst de ster te hoeven classificeren. Die stap overslaan - wat veel gelabelde, gecategoriseerde gegevens—vereenvoudigde het proces. Het hielp ook vooroordelen of fouten bij de classificatie te voorkomen. Het programma produceerde een monster met sterren die net zo goede standaardkaarsen waren als Cepheïden, een nuttige maar zeldzame veranderlijke ster. Er was nog een bonus:de sterren in hun monster waren over het algemeen helderder en gemakkelijker te meten dan Cepheïden.

"De machine learning helpt je deze gecompliceerde ruimtes op te sporen, omdat mensen moeite hebben om in meer dan drie dimensies te denken, ' zei Kovacs.

Kiezen en kiezen op galactisch niveau

Hoewel individuele sterren veel informatie kunnen onthullen, soms heb je een heel sterrenstelsel nodig. Alleen een foto gebruiken, het is gemakkelijker om de afstand van het gaststelsel van een supernova te bepalen dan de supernova zelf. Maar wetenschappers moeten het juiste gaststelsel kiezen. Vroeger, ze hebben deze matching met de hand gedaan. Maar de LSST-camera gaat veel te veel gegevens creëren voor mensen om te verwerken.

In een van Kovac's projecten, het wetenschappelijke team ontwikkelde een algoritme dat het gastmelkwegstelsel 90 tot 92 procent van de tijd correct aan de supernova koppelde. Niet nauwkeurig genoeg. Maar machine learning kwam te hulp. Het team ontwikkelde een machine learning-programma om hen te vertellen hoe waarschijnlijk het was dat een classificatie goed of fout was. Het identificeerde zeven tot acht procent van de oorspronkelijke uitvoer als hoogstwaarschijnlijk fout. Het verwijderen van die items uit de gegevens verhoogde de nauwkeurigheid en maakte het gemakkelijker om de lastige foto's met de hand op te volgen.

De collectieve geest aanboren

Om de kracht van machine learning verder te onderzoeken, twee van de wetenschappelijke groepen van de LSST Camera hebben een unieke manier gevonden om gebruik te maken van de denkkracht van wetenschappers:ze organiseerden een wedstrijd. Samenwerken met Kaggle, een website voor datawetenschappers, ze richtten zich op niet-astronomen die gespecialiseerd zijn in machine learning om programma's te ontwikkelen om toekomstige gegevens van de LSST-camera te sorteren.

"Als je alleen praat met de mensen die je kent, je verliest die diversiteit van denken van de grotere gemeenschap, " zei Hložek, die de wedstrijd leidde. "We wilden dat mensen daadwerkelijk zouden samenwerken om hun modellen en gegevens te poolen."

Ze wilden vooral dat de programma's objecttypen zouden uitkiezen die astrofysici misschien nog niet eerder hebben gezien. Ze gaven de groep drie miljoen objecten om te sorteren in 15 categorieën, met de 15e als 'Ik heb het nog niet eerder gezien.'

"We willen ons voorbereiden om open te staan ​​voor dat soort werk, "Zei Hložek. "Wat zijn de manieren waarop gekheid zich kan manifesteren?"

meer dan 1, 300 deelnemers op 1, 000 teams namen deel aan de uitdaging, die eindigde in december 2018. Nu, onderzoekers van de LSST-camera sorteren de codes om ze te combineren tot de best mogelijke reeks programma's.

Al deze activiteiten vinden plaats jaren voordat de LSST-camera zelfs maar wordt ingeschakeld. Programma's voor machinaal leren zullen zeker nog meer onthullen zodra de gegevens binnenstromen. Hoewel computers niet verwonderd naar de sterren kunnen staren, ze zullen steeds meer inzicht geven in de hemellichamen die zo'n ontzag in ons opwekken.