Wetenschap
Krediet:Southwest Research Institute
Big data is een grote uitdaging geworden voor ruimtewetenschappers die enorme datasets analyseren van steeds krachtigere ruimte-instrumentatie. Om dit aan te pakken, heeft een team van het Southwest Research Institute een machine learning-tool ontwikkeld om grote, complexe datasets efficiënt te labelen, zodat deep learning-modellen kunnen doorzoeken en potentieel gevaarlijke zonne-evenementen kunnen identificeren. De nieuwe labeltool kan worden toegepast of aangepast om andere uitdagingen met grote datasets aan te pakken.
Omdat ruimte-instrumentpakketten steeds complexere gegevens verzamelen in steeds grotere hoeveelheden, wordt het voor wetenschappers een steeds grotere uitdaging om relevante trends te verwerken en te analyseren. Machine learning (ML) wordt een cruciaal hulpmiddel voor het verwerken van grote complexe datasets, waarbij algoritmen leren van bestaande gegevens om beslissingen of voorspellingen te doen die tegelijkertijd meer informatie in rekening kunnen brengen dan mensen. Om te profiteren van ML-technieken, moeten mensen echter eerst alle gegevens labelen - vaak een monumentale onderneming.
"Het labelen van gegevens met zinvolle annotaties is een cruciale stap van gesuperviseerde ML. Het labelen van datasets is echter vervelend en tijdrovend", zegt Dr. Subhamoy Chatterjee, een postdoctoraal onderzoeker bij SwRI, gespecialiseerd in zonneastronomie en instrumentatie en hoofdauteur van een paper over deze bevindingen gepubliceerd in het tijdschrift Nature Astronomy . "Nieuw onderzoek laat zien hoe convolutionele neurale netwerken (CNN's), getraind op grof gelabelde astronomische video's, kunnen worden gebruikt om de kwaliteit en breedte van gegevenslabels te verbeteren en de noodzaak van menselijke tussenkomst te verminderen."
Deep learning-technieken kunnen de verwerking en interpretatie van grote hoeveelheden complexe gegevens automatiseren door complexe patronen te extraheren en te leren. Het SwRI-team gebruikte video's van het magnetische zonneveld om gebieden te identificeren waar sterke, complexe magnetische velden ontstaan op het zonneoppervlak, die de belangrijkste voorloper zijn van ruimteweergebeurtenissen.
"We hebben CNN's getraind met behulp van ruwe labels, waarbij we alleen onze meningsverschillen met de machine handmatig hebben geverifieerd", zegt co-auteur Dr. Andrés Muñoz-Jaramillo, een SwRI-zonnefysicus met expertise in machine learning. "Vervolgens hebben we het algoritme opnieuw getraind met de gecorrigeerde gegevens en dit proces herhaald totdat we het er allemaal over eens waren. Hoewel het labelen van flux-opkomst meestal handmatig wordt gedaan, vermindert deze iteratieve interactie tussen het menselijke en ML-algoritme de handmatige verificatie met 50%."
Iteratieve etiketteringsbenaderingen, zoals actief leren, kunnen aanzienlijk tijd besparen, waardoor de kosten voor het gereedmaken van big data ML worden verlaagd. Door de video's geleidelijk te maskeren en te zoeken naar het moment waarop het ML-algoritme zijn classificatie verandert, hebben SwRI-wetenschappers het getrainde ML-algoritme verder gebruikt om een nog rijkere en bruikbare database te bieden.
"We hebben een end-to-end, diepgaande benadering ontwikkeld voor het classificeren van video's van de evolutie van magnetische patches zonder expliciet gesegmenteerde afbeeldingen, volgalgoritmen of andere handgemaakte functies te leveren", zegt Dr. Derek Lamb van SwRI, een co-auteur die gespecialiseerd is in de evolutie van magnetische velden op het oppervlak van de zon. "Deze database zal van cruciaal belang zijn bij de ontwikkeling van nieuwe methodologieën voor het voorspellen van de opkomst van de complexe regio's die bevorderlijk zijn voor ruimteweergebeurtenissen, waardoor de doorlooptijd die we hebben om ons voor te bereiden op ruimteweer mogelijk wordt verlengd." + Verder verkennen
Wetenschap © https://nl.scienceaq.com