science >> Wetenschap >  >> Wiskunde

Wat is Gaussische distributie?

In statistieken wordt de Gaussiaanse of normale distributie gebruikt om complexe systemen met vele factoren te karakteriseren. Zoals beschreven in Stephen Stiglers The History of Statistics, vond Abraham De Moivre de distributie uit die de naam van Karl Fredrick Gauss draagt. De bijdrage van Gauss lag in zijn toepassing van de distributie naar de kleinste kwadratenbenadering om fouten bij het aanpassen van gegevens te minimaliseren met een lijn van beste passing. Hij maakte het daarmee de belangrijkste foutdistributie in statistieken.

Motivatie

Wat is de verdeling van een steekproef van gegevens? Wat als u de onderliggende distributie van de gegevens niet weet? Is er een manier om hypothesen over de gegevens te testen zonder de onderliggende verdeling te kennen? Dankzij de Centrale Limietstelling is het antwoord ja.

Verklaring van de Stelling

Het stelt dat een steekproefgemiddelde uit een oneindige populatie ongeveer normaal is, of Gaussiaans, met hetzelfde gemiddelde als de onderliggende populatie, en variantie gelijk aan de populatievariantie gedeeld door de steekproefomvang. De benadering wordt beter naarmate de steekproefomvang groot wordt.

De schattingsverklaring wordt soms verkeerd weergegeven als een conclusie over convergentie naar een normale verdeling. Aangezien de geschatte normale verdeling verandert naarmate de steekproefomvang toeneemt, is een dergelijke verklaring misleidend.

De stelling is ontwikkeld door Pierre Simon Laplace.

Waarom het overal is

Normale distributies zijn alomtegenwoordig. De reden komt van de centrale limietstelling. Vaak is het, wanneer een waarde wordt gemeten, het som-effect van veel onafhankelijke variabelen. Daarom heeft de waarde die zelf wordt gemeten een steekproefgemiddelde kwaliteit. Een verdeling van sportprestaties kan bijvoorbeeld een belvorm hebben, als gevolg van verschillen in dieet, training, genetica, coaching en psychologie. Zelfs mannenhoogtes hebben een normale verdeling, die een functie is van vele biologische factoren.

Gaussian Copulas

Wat in 2009 een "copulasfunctie" met een Gauss-verdeling werd genoemd, was in 2009 in het nieuws vanwege het gebruik ervan bij het beoordelen van het risico van belegging in collateralized bonds. Het misbruik van de functie was behulpzaam bij de financiële crisis van 2008-2009. Hoewel er veel oorzaken van de crisis waren, hadden gaussiaanse distributies achteraf waarschijnlijk niet mogen worden gebruikt. Een functie met een dikkere staart zou een grotere kans op ongunstige gebeurtenissen hebben toegewezen.

Afleiding

De stelling van de centrale limiet kan in veel lijnen worden bewezen door de momentopwekkende functie (mgf) van (monster) te analyseren. mean - population mean) /? (population variance /sample size) als een functie van de mgf van de onderliggende populatie. Het benaderingsgedeelte van de stelling wordt geïntroduceerd door de mgf van de onderliggende populatie uit te breiden als een vermogensreeks, en vervolgens zijn de meeste termen onbeduidend als de steekproefomvang groot wordt.

Het kan in veel minder regels worden bewezen door een Taylor te gebruiken uitbreiding op de karakteristieke vergelijking van dezelfde functie en het vergroten van de steekproefomvang.

Computational Convenience

Sommige statistische modellen veronderstellen dat de fouten Gaussiaans zijn. Hierdoor kunnen distributies van functies van normale variabelen, zoals de chikwadraat- en F-verdeling, worden gebruikt in hypothesetests. Specifiek, in de F-test, bestaat de F-statistiek uit een verhouding van chikwadraat-verdelingen, die zelf functies van een normale variantieparameter zijn. De verhouding van de twee zorgt ervoor dat de variantie wordt geannuleerd, waardoor het testen van hypothesen mogelijk wordt zonder kennis van de varianties, afgezien van hun normaliteit en constantheid.