science >> Wetenschap >  >> Wiskunde

De nadelen van lineaire regressie

Lineaire regressie is een statistische methode voor het onderzoeken van de relatie tussen een afhankelijke variabele, aangeduid als y,
en een of meer onafhankelijke variabelen, aangeduid als x
. De afhankelijke variabele moet continu zijn, in die zin dat deze elke waarde kan aannemen, of ten minste bijna continu is. De onafhankelijke variabelen kunnen van elk type zijn. Hoewel lineaire regressie zelf geen oorzaak kan zijn, wordt de afhankelijke variabele meestal beïnvloed door de onafhankelijke variabelen.

Lineaire regressie is beperkt tot lineaire relaties

Naar zijn aard kijkt lineaire regressie alleen naar lineaire relaties tussen afhankelijke en onafhankelijke variabelen. Dat wil zeggen, het gaat ervan uit dat er een rechtlijnige relatie tussen hen bestaat. Soms is dit onjuist. De relatie tussen inkomen en leeftijd is bijvoorbeeld gekromd, d.w.z. het inkomen neemt eerder toe in de vroege delen van de volwassenheid, vervlakt zich in de latere volwassenheid en neemt af nadat mensen met pensioen zijn gegaan. Je kunt zien of dit een probleem is door naar grafische representaties van de relaties te kijken.

Lineaire regressie kijkt alleen naar het gemiddelde van de afhankelijke variabele

Lineaire regressie kijkt naar een relatie tussen het gemiddelde van de afhankelijke variabele en de onafhankelijke variabelen. Als u bijvoorbeeld kijkt naar de relatie tussen het geboortegewicht van baby's en maternale kenmerken zoals leeftijd, zal lineaire regressie kijken naar het gemiddelde gewicht van baby's van moeders van verschillende leeftijden. Soms moet je echter kijken naar de uitersten van de afhankelijke variabele, bijv. Baby's lopen risico wanneer hun gewicht laag is, dus je zou naar de uitersten in dit voorbeeld willen kijken.

Net zoals het gemiddelde is geen volledige beschrijving van een enkele variabele, lineaire regressie is geen volledige beschrijving van relaties tussen variabelen. U kunt dit probleem oplossen met kwantielregressie.

Lineaire regressie is gevoelig voor uitschieters

Uitschieters zijn gegevens die verrassend zijn. Uitbijters kunnen univariaat zijn (op basis van één variabele) of multivariate. Als u kijkt naar leeftijd en inkomen, zouden univariate uitschieters dingen zijn als een persoon die 118 jaar oud is, of iemand die vorig jaar $ 12 miljoen verdiende. Een multivariate uitbijter zou een 18-jarige zijn die $ 200.000 verdiende. In dit geval is noch de leeftijd noch het inkomen erg extreem, maar heel weinig 18-jarige mensen verdienen zoveel.

Uitschieters kunnen enorme gevolgen hebben voor de regressie. U kunt dit probleem oplossen door beïnvloedingsstatistieken van uw statistische software aan te vragen.

Gegevens moeten onafhankelijk zijn

Lineaire regressie gaat ervan uit dat de gegevens onafhankelijk zijn. Dat betekent dat de scores van één onderwerp (zoals een persoon) niets te maken hebben met die van een ander. Dit is vaak, maar niet altijd, verstandig. Twee veel voorkomende gevallen waarin het niet logisch is, zijn clustering in ruimte en tijd.

Een klassiek voorbeeld van clustering in de ruimte zijn de testscores van studenten, wanneer je studenten hebt van verschillende klassen, cijfers, scholen en schooldistricten. Studenten in dezelfde klas lijken in veel opzichten op elkaar, dat wil zeggen, ze komen vaak uit dezelfde wijken, ze hebben dezelfde leraren, enzovoort. Ze zijn dus niet onafhankelijk.

Voorbeelden van clustering in de tijd zijn alle onderzoeken waarbij je dezelfde onderwerpen meerdere keren meet. In een onderzoek naar voeding en gewicht kun je bijvoorbeeld elke persoon meerdere keren meten. Deze gegevens zijn niet onafhankelijk omdat wat een persoon bij één gelegenheid weegt, gerelateerd is aan wat hij of zij bij andere gelegenheden weegt. Een manier om dit aan te pakken is met multiniveau-modellen.