Wetenschap
Gauss-verdelingen zijn eenvoudig en gemakkelijk te begrijpen, maar voor sommige gegevens zoals regenval en windsnelheid, ze kunnen resulteren in fysiek onmogelijke staarten naar negatieve waarden. Krediet:Marek Uliasz / Alamy Stock Photo
Onderzoek naar de mismatch tussen ruimtelijke omgevingsgegevens en een veelgebruikte statistische analyse suggereert dat in veel gevallen eenvoudigere statistieken voldoende zijn.
Milieuwetenschappers en hun statistici-collega's staan voor een veelvoorkomend dilemma:karakteriseren eenvoudigere statistische tests een dataset op de juiste manier? En loont het de moeite om statistische methoden af te leiden en toe te passen die mogelijk beter op elkaar aansluiten, maar moeilijker te interpreteren zijn? In de meeste gevallen wint de weg van de minste weerstand, maar de keuze voor een eenvoudige statistische basis kan lichte twijfel doen rijzen over de validiteit van statistisch afgeleide onderzoeksresultaten.
KAUST-onderzoeker Marc Genton en zijn doctoraalstudent Yuan Yan ontwikkelden een raamwerk om precies te testen hoe onnauwkeurig een mismatch tussen gegevens en statistische analyse kan zijn, en de resultaten zijn verrassend.
"Onderzoekers hebben de neiging om ruimtelijke gegevens te passen met een eenvoudig Gaussiaans model - de klassieke symmetrische klokkromme rond de gemiddelde waarde - hoewel gegevens een asymmetrische verdeling kunnen hebben met kenmerken die afwijken van Gaussiaans, " zegt Yan. "We onderzochten het effect van de 'niet-Gaussianiteit' van gegevens op statistische schattingen en voorspellingen onder de verkeerde Gaussiaanse aanname."
Gauss-verdelingen zijn over het algemeen intuïtief, met een gemiddelde waarde en standaarddeviaties van het gemiddelde die een smalle of brede verspreiding van gegevens impliceren. Ze worden veel toegepast en begrepen, zowel vanuit een praktijkperspectief als voor niet-technische gebruikers. Maar, in veel situaties, met name voor milieugegevens, de verdeling van gegevens is scheef. Windsnelheid en regenval, bijvoorbeeld, kan niet kleiner zijn dan nul, toch kan een Gauss-verdeling met een kleine gemiddelde waarde maar uitgebreide verdeling naar hogere waarden een staart hebben aan de onderkant die zich uitstrekt tot negatieve waarden - zeker verkeerd, maar met hoeveel?
Een van de belangrijkste concepten in ruimtelijke statistische analyses is hoe sterk gegevens elkaar beïnvloeden wanneer een bepaalde afstand van elkaar, die wordt gegeven door wat bekend staat als de covariantiefunctie. Genton en Yan wilden systematisch het effect bestuderen van het toepassen van een Gauss-model om de covariantiefunctie voor niet-Gaussiaanse gegevens te schatten.
"We hebben een op maat gemaakt simulatieschema ontwikkeld om niet-Gaussiaanse ruimtelijke gegevens te genereren met een bepaalde covariantiestructuur, ", zegt Genton. "We hebben door middel van onze simulatiestudie aangetoond dat wanneer ruimtelijke gegevens niet-Gaussiaans zijn, de Gauss-waarschijnlijkheidsschatter van covariantieparameters presteert nog steeds beter dan een alternatieve gewogen kleinste-kwadratenschatter voor gegevens die niet sterk scheef zijn."
De bevinding suggereert dat het eenvoudige Gauss-model in veel gevallen in feite over het algemeen geschikt is voor parameterschatting voor ruimtelijke gegevens, enige troost bieden aan ruimtelijke wetenschappers over hun keuze voor statistische benadering.
Wetenschap © https://nl.scienceaq.com