science >> Wetenschap >  >> anders

Wat is R2 lineaire regressie?

Statistici en wetenschappers hebben vaak de eis om de relatie tussen twee variabelen te onderzoeken, gewoonlijk x en y genoemd. Het doel van het testen van twee dergelijke variabelen is meestal om te zien of er een verband is tussen deze variabelen, in de wetenschap een correlatie genoemd. Een wetenschapper wil bijvoorbeeld weten of uren blootstelling aan de zon kunnen worden gekoppeld aan de tarieven van huidkanker. Om de sterkte van een correlatie tussen twee variabelen wiskundig te beschrijven, gebruiken dergelijke onderzoekers vaak R2.
Lineaire regressie

Statistici gebruiken de techniek van lineaire regressie om de rechte lijn te vinden die het beste past bij een reeks van x en y gegevensparen. Ze doen dit door middel van een reeks berekeningen die de vergelijking van de beste lijn afleiden. Deze wiskundige beschrijving van de lijn is een lineaire vergelijking en heeft de algemene vorm van y \u003d mx + b, waarbij x en y de twee variabelen in de gegevensparen zijn, m de helling van de lijn is en b de y-interceptie is.
Correlatiecoëfficiënt

De berekeningen die de beste rechte lijn vinden, zullen een lineaire vergelijking produceren die past bij elke set gegevens, zelfs als die gegevens niet erg lineair zijn. Om een indicatie te krijgen van hoe goed de gegevens daadwerkelijk in een rechte lijn passen, berekenen statistici ook een getal dat bekend staat als de correlatiecoëfficiënt. Dit krijgt het symbool r of R en is een maat voor hoe nauw de gegevensparen zijn uitgelijnd met de beste rechte lijn erdoor.
Betekenis van R

R kan elke waarde tussen -1 en 1 hebben Een negatieve waarde van R betekent gewoon dat de best passende rechte lijn naar beneden schuift van links naar rechts in plaats van naar boven. Hoe dichter R bij een van de twee uitersten is, des te beter passen de gegevenspunten bij de lijn, waarbij -1 of 1 een perfecte aanpassing is en een R-waarde van nul betekent dat er geen aanpassing is en de punten volledig willekeurig. Als de gegevenspunten goed zijn uitgelijnd met de rechte lijn, is er een verband tussen hen, vandaar de naamcorrelatiecoëfficiënt voor R.
R2

Sommige statistici werken liever met de waarde R2 , wat eenvoudig de correlatiecoëfficiënt is in het kwadraat, of vermenigvuldigd met zichzelf, en staat bekend als de bepalingscoëfficiënt. R2 lijkt erg op R en beschrijft ook de correlatie tussen de twee variabelen, maar het is ook iets anders. Het meet het percentage variatie in de variabele y dat kan worden toegeschreven aan variatie in de variabele x. Een R2-waarde van 0,9 betekent bijvoorbeeld dat 90 procent van de variatie in de y-gegevens te wijten is aan variatie in de x-gegevens. Dit betekent niet noodzakelijkerwijs dat x echt invloed heeft op y, maar dat het dit lijkt te doen.