De terugkeer van de lente op het noordelijk halfrond luidt het tornadoseizoen in. De kronkelende trechter van stof en puin van een tornado lijkt een onmiskenbaar gezicht. Maar dat zicht kan onzichtbaar worden gemaakt voor de radar, het instrument van meteorologen. Het is moeilijk om precies te weten wanneer een tornado zich heeft gevormd, of zelfs waarom.
Een nieuwe dataset zou antwoorden kunnen bevatten. Het bevat radarsignalen van duizenden tornado's die de afgelopen tien jaar de Verenigde Staten hebben getroffen. Stormen die tornado's voortbrachten, worden geflankeerd door andere zware stormen, waarvan sommige met vrijwel identieke omstandigheden, die nooit hebben plaatsgevonden. Onderzoekers van het MIT Lincoln Laboratory die de dataset, genaamd TorNet, hebben samengesteld, hebben deze nu open-source vrijgegeven. Ze hopen doorbraken mogelijk te maken bij het opsporen van een van de meest mysterieuze en gewelddadige verschijnselen van de natuur.
"Veel vooruitgang wordt gedreven door gemakkelijk beschikbare benchmarkdatasets. We hopen dat TorNet een basis zal leggen voor machine learning-algoritmen om tornado's zowel te detecteren als te voorspellen", zegt Mark Veillette, co-hoofdonderzoeker van het project met James Kurdzo. Beide onderzoekers zijn werkzaam bij de leerstoelgroep Luchtverkeersleidingsystemen.
Samen met de dataset geeft het team modellen vrij die erop zijn getraind. De modellen zijn veelbelovend voor het vermogen van machine learning om een twister te herkennen. Voortbouwen op dit werk zou nieuwe grenzen kunnen openen voor voorspellers, waardoor ze nauwkeurigere waarschuwingen kunnen geven die levens kunnen redden.
Wervelende onzekerheid
Jaarlijks vinden er in de Verenigde Staten ongeveer 1.200 tornado's plaats, die voor miljoenen tot miljarden dollars aan economische schade veroorzaken en gemiddeld 71 levens eisen. Vorig jaar doodde een ongewoon langdurige tornado 17 mensen en verwondde minstens 165 anderen langs een pad van 95 kilometer in Mississippi.
Toch zijn tornado's notoir moeilijk te voorspellen, omdat wetenschappers geen duidelijk beeld hebben van de reden waarom ze ontstaan. "We kunnen twee stormen zien die er identiek uitzien, en de ene zal een tornado veroorzaken en de andere niet. We begrijpen het niet helemaal", zegt Kurdzo.
De basisingrediënten van een tornado zijn onweersbuien met instabiliteit veroorzaakt door snel stijgende warme lucht en windschering die rotatie veroorzaakt. Weerradar is het belangrijkste instrument dat wordt gebruikt om deze omstandigheden te monitoren. Maar tornado's lagen te laag om te worden gedetecteerd, zelfs als ze zich redelijk dicht bij de radar bevonden. Naarmate de radarbundel met een bepaalde kantelhoek zich verder van de antenne verwijdert, komt hij hoger boven de grond en ziet hij vooral reflecties van regen en hagel die worden meegevoerd in de 'mesocycloon', de brede, roterende opwaartse luchtstroom van de storm. Een mesocycloon veroorzaakt niet altijd een tornado.
Met dit beperkte inzicht moeten voorspellers beslissen of ze al dan niet een tornadowaarschuwing willen geven. Ze nemen vaak het zekere voor het onzekere. Als gevolg hiervan bedraagt het percentage valse alarmen voor tornadowaarschuwingen meer dan 70%.
"Dat kan leiden tot het boy-who-creed-wolf-syndroom", zegt Kurdzo.
De afgelopen jaren hebben onderzoekers zich tot machinaal leren gewend om tornado's beter te detecteren en te voorspellen. Ruwe datasets en modellen zijn echter niet altijd toegankelijk geweest voor de bredere gemeenschap, wat de vooruitgang belemmert. TorNet vult deze leemte op.
De dataset bevat ruim 200.000 radarbeelden, waarvan 13.587 tornado's weergeven. De rest van de beelden zijn niet-tornadisch en afkomstig van stormen in een van de twee categorieën:willekeurig geselecteerde zware stormen of stormen met vals alarm (de stormen die een voorspeller ertoe brachten een waarschuwing te geven, maar die geen tornado veroorzaakten).
P>
Elk monster van een storm of tornado bestaat uit twee sets van zes radarbeelden. De twee sets komen overeen met verschillende radarzwaaihoeken. De zes afbeeldingen tonen verschillende radargegevensproducten, zoals reflectiviteit (die de neerslagintensiteit weergeeft) of radiale snelheid (die aangeeft of de wind naar de radar toe of van de radar af beweegt).
Een uitdaging bij het samenstellen van de dataset was het vinden van tornado's. Binnen het corpus van weerradargegevens zijn tornado's uiterst zeldzame gebeurtenissen. Het team moest vervolgens die tornadomonsters in evenwicht brengen met moeilijke niet-tornadomonsters. Als de dataset te eenvoudig zou zijn, bijvoorbeeld door tornado's met sneeuwstormen te vergelijken, zou een algoritme dat op basis van de gegevens is getraind, stormen waarschijnlijk overschatten als tornadische stormen.
"Het mooie van een echte benchmarkdataset is dat we allemaal met dezelfde gegevens werken, met dezelfde moeilijkheidsgraad, en de resultaten kunnen vergelijken", zegt Veillette. "Het maakt meteorologie ook toegankelijker voor datawetenschappers, en vice versa. Het wordt voor deze twee partijen gemakkelijker om aan een gemeenschappelijk probleem te werken."
Beide onderzoekers vertegenwoordigen de vooruitgang die kan voortvloeien uit onderlinge samenwerking. Veillette is een wiskundige en algoritme-ontwikkelaar die al lang gefascineerd is door tornado's. Kurdzo is een meteoroloog van opleiding en een expert op het gebied van signaalverwerking. Op de middelbare school achtervolgde hij tornado's met op maat gemaakte mobiele radars, waarbij hij gegevens verzamelde om op nieuwe manieren te analyseren.
"Deze dataset betekent ook dat een afgestudeerde student geen jaar of twee hoeft te besteden aan het opbouwen van een dataset. Ze kunnen meteen aan hun onderzoek beginnen", zegt Kurdzo.
Op zoek naar antwoorden met deep learning
Met behulp van de dataset ontwikkelden de onderzoekers basismodellen voor kunstmatige intelligentie (AI). Ze wilden vooral deep learning toepassen, een vorm van machine learning die uitblinkt in het verwerken van visuele data. Op zichzelf kan deep learning kenmerken (belangrijke observaties die een algoritme gebruikt om een beslissing te nemen) extraheren uit afbeeldingen in een dataset. Bij andere machine learning-benaderingen moeten mensen eerst handmatig functies labelen.
"We wilden zien of deep learning kan herontdekken waar mensen normaal naar zoeken in tornado's en zelfs nieuwe dingen kan identificeren waar voorspellers doorgaans niet naar zoeken", zegt Veillette.
De resultaten zijn veelbelovend. Hun deep learning-model presteerde vergelijkbaar of beter dan alle tornado-detecterende algoritmen die in de literatuur bekend zijn. Het getrainde algoritme classificeerde 50% van de zwakkere EF-1-tornado's correct en meer dan 85% van de tornado's met de classificatie EF-2 of hoger, die de meest verwoestende en kostbare gebeurtenissen van deze stormen vormen.
Ze evalueerden ook twee andere soorten machine-learning-modellen, en één traditioneel model om mee te vergelijken. De broncode en parameters van al deze modellen zijn vrij beschikbaar. De modellen en dataset worden ook beschreven in een artikel dat is ingediend bij een tijdschrift van de American Meteorological Society (AMS). Veillette presenteerde dit werk tijdens de AMS Annual Meeting in januari.
"De grootste reden om onze modellen op de markt te brengen is dat de gemeenschap ze kan verbeteren en andere geweldige dingen kan doen", zegt Kurdzo. "De beste oplossing zou een deep learning-model kunnen zijn, of iemand zou kunnen ontdekken dat een niet-deep learning-model eigenlijk beter is."
TorNet zou ook nuttig kunnen zijn in de weergemeenschap voor andere toepassingen, zoals voor het uitvoeren van grootschalige casestudies over stormen. Het kan ook worden uitgebreid met andere gegevensbronnen, zoals satellietbeelden of bliksemkaarten. Het samenvoegen van meerdere soorten gegevens kan de nauwkeurigheid van machine learning-modellen verbeteren.
Stappen zetten richting operaties
Naast het detecteren van tornado's hoopt Kurdzo dat modellen kunnen helpen de wetenschap te ontrafelen waarom ze ontstaan.
"Als wetenschappers zien we al deze voorlopers van tornado's:een toename van rotatie op laag niveau, een haakecho in reflectiviteitsgegevens, specifieke differentiële fase (KDP) voet- en differentiële reflectiviteitsbogen (ZDR). Maar hoe gaan ze allemaal samen? En zijn er fysieke manifestaties waar we niets van weten?" vraagt hij.
Deze antwoorden kunnen mogelijk worden ontdekt met verklaarbare AI. Verklaarbare AI verwijst naar methoden waarmee een model kan redeneren, in een voor mensen begrijpelijk formaat, waarom het tot een bepaalde beslissing is gekomen. In dit geval kunnen deze verklaringen fysieke processen onthullen die vóór tornado's plaatsvinden. Deze kennis kan voorspellers en modellen helpen de signalen sneller te herkennen.
"Niets van deze technologie is ooit bedoeld om een voorspeller te vervangen. Maar misschien kan het op een dag de ogen van voorspellers in complexe situaties leiden en een visuele waarschuwing geven aan een gebied waarvan wordt voorspeld dat er tornadische activiteit zal zijn", zegt Kurdzo.
Dergelijke hulp zou vooral nuttig kunnen zijn naarmate de radartechnologie verbetert en toekomstige netwerken mogelijk dichter worden. De verwachting is dat de gegevensverversingsfrequentie in een radarnetwerk van de volgende generatie zal toenemen van elke vijf minuten tot ongeveer één minuut, misschien sneller dan voorspellers de nieuwe informatie kunnen interpreteren. Omdat deep learning grote hoeveelheden gegevens snel kan verwerken, zou het zeer geschikt kunnen zijn voor het in realtime monitoren van radarresultaten, naast mensen. Tornado's kunnen binnen enkele minuten ontstaan en verdwijnen.
Maar de weg naar een operationeel algoritme is een lange weg, vooral in veiligheidskritische situaties, zegt Veillette. "Ik denk dat de gemeenschap van voorspellers, begrijpelijkerwijs, nog steeds sceptisch staat tegenover machine learning. Een manier om vertrouwen en transparantie te creëren is door openbare benchmarkdatasets zoals deze te hebben. Het is een eerste stap."
Het team hoopt dat de volgende stappen zullen worden gezet door onderzoekers over de hele wereld die geïnspireerd zijn door de dataset en energie krijgen om hun eigen algoritmen te bouwen. Deze algoritmen zullen op hun beurt in proeftuinen terechtkomen, waar ze uiteindelijk aan voorspellers zullen worden getoond, om een proces van overgang naar operationele activiteiten op gang te brengen.
Uiteindelijk zou het pad terug kunnen keren naar vertrouwen.
"Misschien krijgen we met deze tools nooit meer dan een tornado-waarschuwing van tien tot vijftien minuten. Maar als we het aantal valse alarmen zouden kunnen verlagen, zouden we vooruitgang kunnen boeken met de publieke perceptie", zegt Kurdzo. "Mensen gaan deze waarschuwingen gebruiken om de actie te ondernemen die ze nodig hebben om hun leven te redden."