science >> Wetenschap >  >> Elektronica

Machine learning zoekt naar nuttige gegevens in rapporten over onweersbuien in de VS

De plankwolk van een onweersbui nadert de campus van de staat Iowa. Krediet:Bill Gallus

Van Bill Gallus is bekend dat hij een zomerstorm of twee achtervolgt. Maar hij hoefde niet achter deze aan te gaan.

Op 17 juli, 2019, een onweersbui naderde de campus van de Iowa State University. Gallus, een professor in de geologische en atmosferische wetenschappen, ging naar het dak boven zijn kantoor in het Agronomiegebouw. En hij vergat een camera niet.

Een van zijn foto's toont een plankwolk die de rand van zware onweersbuien markeert. De duidelijke lijn van de wolk doorsnijdt de foto, laag, scherp en imposant, geen luchtigheid hier. De doorgaans drukke Osborn Drive voor zijn kantoor is grotendeels leeg - een paar mensen op straat gaan naar het noord-noordwesten, kijkend naar de storm.

"De gladheid en lage hoogte van een plankwolk maakt het een indrukwekkend gezicht om te observeren, Gallus schreef in een beschrijving van de foto. "Het vormt zich als de snel bewegende koude lucht in een onweersbui zich verspreidt, de warme vochtige lucht er snel boven optillen."

We hebben allemaal tientallen onweersbuien gezien. En de National Weather Service houdt plichtsgetrouw gegevens bij van elk en classificeert hun sterkte in de Storm Reports-database. Om een ​​onweersbui te markeren als "ernstig, " bijvoorbeeld, het moet een tornado veroorzaken, hagel groter dan 1 inch in diameter of winden groter dan 58 mph.

Maar de meeste onweersbuien rommelen niet over blaasinstrumenten. Dus hebben meteorologen windschattingen gemaakt op basis van stormschade zoals omgevallen bomen, daken weggeblazen of schuren omver geduwd. En meestal, toen dat soort windschade werd gemeld, onweersbuien werden simpelweg geclassificeerd als zwaar, zonder echte metingen die de aanduiding ondersteunen.

Dat is een probleem voor onderzoekers zoals Gallus, die goede gegevens nodig hebben om betere manieren te ontwikkelen om ernstige, plaatselijke onweersbuien.

Een big data-probleem

Toen Gallus campuscollega's van de onderzoeksgroep Theoretical and Applied Data Science in Iowa State hoorde praten over machine learning, hij dacht dat de mogelijkheden voor gegevensanalyse van de technologie hem konden helpen bij het bestuderen en analyseren van de Storm Reports-database. Misschien konden de computers verbanden of verbanden in de rapporten vinden die zouden kunnen leiden tot nieuwe prognosetools?

We zullen, niet zo snel, zeiden wetenschappers van de National Oceanic and Atmospheric Administration (NOAA).

De bestaande database met zware onweersbuien die wordt onderhouden door de National Centers for Environmental Information zou niet veel nut hebben voor Gallus of andere onderzoekers die op zoek zijn naar windgegevens. De windberichten waren onbetrouwbaar. De rapporten moesten worden opgeschoond voordat ze nuttig konden zijn voor studies met zware wind.

Dus dat is wat Gallus en een team van datawetenschappers van de staat Iowa gaan doen. Ondersteund door een driejarige $650, 000 NOAA-subsidie, ze zullen computers en machine learning-tools gebruiken om de rapporten te doorzoeken en de waarschijnlijkheid te identificeren dat elk daadwerkelijk een onweersbui met harde wind beschrijft.

Het is geen geringe taak - Gallus zei dat de wetenschappers zullen beginnen met 12 jaar zware onweersbuien. Dat is ongeveer 180, 000 van hen.

"En 90 procent van die 180, 000 rapporten bevatten windschattingen, Gallus zei. "Ze zijn niet gebaseerd op gegevens van weerstations. De meerderheid van hen zegt bomen of takken naar beneden - iemand riep en zei:"Mijn boom is omgevallen.""

Het doorzoeken van die rapporten roept allerlei uitdagingen op voor gegevensonderzoekers, zei Eric Weber, een projectmedewerker en Iowa State professor in de wiskunde.

Eerst, hij zei dat de rapporten vol staan ​​met gegevens die door mensen zijn verzameld, niet door nauwkeurige en geavanceerde instrumenten. De rapporten bevatten ook natuurlijke, Alledaagse taal. Er zijn idiomen, zinswendingen en zelfs typefouten die moeten worden geanalyseerd door de machine-learningsoftware.

En ten tweede, onweersbuien zijn zeer complex. Er zijn veel variabelen:temperatuur van stijgende lucht, condensatie, regenval, bliksem en meer - die moeten worden verzameld, gekwantificeerd en geanalyseerd om de stormen te begrijpen.

Weber - die machine learning beschrijft als een kunstmatig neuraal netwerk dat "verbindingen maakt op basis van de beschikbare informatie" - zei dat de computersoftware enorme hoeveelheden stormgegevens aankan die teams van mensen zouden overweldigen.

Machine-learning software doet dat ook op een heel niet-menselijke manier.

"Als we naar data kijken, proberen we de data als mens te begrijpen, " Zei Weber. "We brengen onze percepties en vooroordelen. Een van de belangrijkste redenen waarom machine learning nu zo succesvol wordt gebruikt, is dat het geen vooroordelen toevoegt aan de analyse van de gegevens.

"Het kan potentiële relaties vinden die mensen niet kunnen vanwege hun vooroordelen."

Op weg naar betere prognoses

Terwijl de computers vorderen met de stormrapporten, Gallus zei dat hij updates en demonstraties zal geven op NOAA's jaarlijkse, wekenlang testbed voor gevaarlijk weer in Norman, Oklahoma. De testbedden zijn tijdens het tornado-seizoen van mei en zijn een kans voor onderzoekers en voorspellers om de nieuwste voorspellingsideeën te gebruiken, hulpmiddelen en technologieën.

Gallus hoopt te pronken met de voortgang van de onweerswindstudie. Hij verzamelt feedback en suggesties. En dat alles zou uiteindelijk kunnen leiden tot een nieuwe voorspellingstool die de waarschijnlijkheid voorspelt dat een onweersbui harde wind zal veroorzaken.

"De belangrijkste behoefte voor NOAA op dit moment is om de database op te schonen voor beter onderzoek, " zei Gallus. "Maar we hebben ons gerealiseerd dat als dit project goed samengaat met machine learning, we konden zien hoe het zou kunnen werken als een voorspellingstool."