Een team van wetenschappers ontwikkelt een nieuwe AI voor astronomische gegevens, genaamd AstroPT. Ze hebben het gepresenteerd in een nieuw artikel met de titel "AstroPT:Scaling Large Observation Models for Astronomy." Het artikel is beschikbaar op de arXiv preprint-server en de hoofdauteur is Michael J. Smith, een datawetenschapper en astronoom van Aspia Space.
Astronomen worden geconfronteerd met een groeiende stroom aan gegevens, die enorm zal toenemen als de Vera Rubin Observatorium (VRO) in 2025 online komt. De VRO beschikt over de grootste camera ter wereld, en elk van de beelden zou 1.500 grote tv's kunnen vullen. Tijdens zijn tienjarige missie zal de VRO ongeveer 0,5 exabyte aan gegevens genereren, wat ongeveer 50.000 keer meer gegevens is dan de gegevens die zich in de Amerikaanse Library of Congress bevinden.
Ook andere telescopen met enorme spiegels naderen het eerste licht. De Giant Magellan Telescope, de Thirty Meter Telescope en de European Extremely Large Telescope zullen samen een overweldigende hoeveelheid gegevens genereren.
De behoefte van de VRO aan meerdere locaties om al haar data te verwerken is een bewijs van de enorme hoeveelheid data die zij zal genereren. Zonder effectieve AI blijven die gegevens in een knelpunt zitten. Credit:NOIRLAb
Het hebben van gegevens die niet kunnen worden verwerkt, is hetzelfde als het helemaal niet hebben van de gegevens. Het is feitelijk inert en heeft geen betekenis totdat het op de een of andere manier wordt verwerkt. "Als je te veel gegevens hebt en niet over de technologie beschikt om deze te verwerken, is het alsof je geen gegevens hebt", zegt Cecilia Garraffo, computationeel astrofysicus bij het Harvard-Smithsonian Center for Astrophysics.
Dit is waar AstroPT in beeld komt.
AstroPT staat voor Astro Pretrained Transformer, waarbij een transformator een bepaald type AI is. Transformatoren kunnen een invoerreeks veranderen of transformeren in een uitvoerreeks. AI moet worden getraind en AstroPT is getraind op 8,6 miljoen afbeeldingen van 512 x 512 pixels uit de DESI Legacy Survey Data Release 8. DESI is het Dark Energy Spectroscopic Instrument. DESI bestudeert het effect van donkere energie door de optische spectra van tientallen miljoenen sterrenstelsels en quasars vast te leggen.
AstroPT en soortgelijke AI houden zich bezig met ‘tokens’. Tokens zijn visuele elementen in een groter beeld die betekenis bevatten. Door afbeeldingen op te splitsen in tokens, kan een AI de grotere betekenis van een afbeelding begrijpen. AstroPT kan individuele tokens omzetten in coherente uitvoer.
AstroPT is getraind op visuele tokens. Het idee is om de AI te leren het volgende token te voorspellen. Hoe grondiger hij hiervoor is opgeleid, hoe beter hij zal presteren.
"We hebben aangetoond dat eenvoudige generatieve autoregressieve modellen wetenschappelijk bruikbare informatie kunnen leren als ze vooraf zijn getraind in de surrogaattaak van het voorspellen van de volgende 16 x 16 pixelpatch in een reeks beeldpatches van sterrenstelsels", schrijven de auteurs. In dit schema is elke afbeeldingspatch een token.
Deze afbeelding illustreert hoe de auteurs AstroPT hebben getraind om het volgende teken in een 'spiraalvormige' reeks beeldvlakken van sterrenstelsels te voorspellen. Het toont de tokenfeedvolgorde. "Aangezien de sterrenstelsels zich in het midden van elke postzegel bevinden, stelt deze opstelling ons in staat naadloos voor te trainen en gevolgtrekkingen te maken op postzegels van sterrenstelsels van verschillende grootte", leggen de auteurs uit. Krediet:Smith et al, 2024
Een van de obstakels voor het trainen van AI zoals AstroPT betreft wat AI-wetenschappers de ‘tokencrisis’ noemen. Om effectief te zijn moet AI worden getraind op een groot aantal kwaliteitstokens. In een paper uit 2023 legde een afzonderlijk team van onderzoekers uit dat een gebrek aan tokens de effectiviteit van sommige AI, zoals LLM’s of grote taalmodellen, kan beperken. "State-of-the-art LLM's hebben enorme hoeveelheden tekstgegevens op internetschaal nodig voor pre-training", schreven ze. "Helaas is de groeisnelheid van tekstgegevens van hoge kwaliteit op internet veel langzamer dan de groeisnelheid van gegevens die nodig zijn voor LLM's."
AstroPT wordt met hetzelfde probleem geconfronteerd:een tekort aan kwaliteitstokens om op te trainen. Net als andere AI maakt het gebruik van LOM’s of Large Observation Models. Het team zegt dat hun resultaten tot nu toe suggereren dat AstroPT de tokencrisis kan oplossen door gegevens uit observaties te gebruiken. "Dit is een veelbelovend resultaat dat suggereert dat gegevens uit de observationele wetenschappen een aanvulling zouden vormen op gegevens uit andere domeinen wanneer ze worden gebruikt om een enkele multimodale LOM voor te trainen, en wijst dus in de richting van het gebruik van observationele gegevens als één oplossing voor de 'tokencrisis'. '"
AI-ontwikkelaars willen graag oplossingen vinden voor de tokencrisis en andere AI-uitdagingen.
Zonder betere AI zal een knelpunt in de gegevensverwerking astronomen en astrofysici ervan weerhouden ontdekkingen te doen op basis van de enorme hoeveelheden gegevens die binnenkort zullen arriveren. Kan AstroPT helpen?
De auteurs hopen dat dit mogelijk is, maar er is nog veel meer ontwikkeling nodig. Ze zeggen dat ze open staan voor samenwerking met anderen om AstroPT te versterken. Om dat te ondersteunen volgden zij de ‘huidige leidende gemeenschapsmodellen’ zo nauwkeurig mogelijk. Ze noemen het een 'open voor iedereen'-project.
"We hebben deze beslissingen genomen in de overtuiging dat collaboratieve gemeenschapsontwikkeling de snelste weg vrijmaakt naar het realiseren van een open source groot observatiemodel op webschaal", schrijven ze.
"We nodigen potentiële medewerkers van harte uit om zich bij ons aan te sluiten", besluiten ze.
Het zal interessant zijn om te zien hoe AI-ontwikkelaars gelijke tred zullen houden met de enorme hoeveelheid astronomische gegevens die onze kant op komen.