Wetenschap
Lineaire regressie is een statistische methode voor het onderzoeken van de relatie tussen een afhankelijke variabele, aangeduid als y, Lineaire regressie kijkt van nature alleen naar lineaire relaties tussen afhankelijke en onafhankelijke variabelen. Dat wil zeggen, het veronderstelt dat er een rechte relatie tussen hen is. Soms is dit niet correct. De relatie tussen inkomen en leeftijd is bijvoorbeeld gebogen, d.w.z. het inkomen heeft de neiging om te stijgen in de vroege delen van de volwassenheid, af te vlakken in de latere volwassenheid en af te nemen nadat mensen met pensioen gaan. Je kunt zien of dit een probleem is door te kijken naar grafische weergaven van de relaties. Lineaire regressie kijkt naar een relatie tussen het gemiddelde van de afhankelijke variabele en de onafhankelijke variabelen. Als u bijvoorbeeld kijkt naar de relatie tussen het geboortegewicht van baby's en maternale kenmerken zoals leeftijd, kijkt lineaire regressie naar het gemiddelde gewicht van baby's van moeders van verschillende leeftijden. Soms moet u echter naar de uitersten van de afhankelijke variabele kijken, bijv. Baby's lopen risico wanneer hun gewichten laag zijn, dus u zou in dit voorbeeld naar de uitersten willen kijken. Net zoals het gemiddelde is geen volledige beschrijving van een enkele variabele, lineaire regressie is geen volledige beschrijving van relaties tussen variabelen. U kunt dit probleem oplossen met behulp van kwantiele regressie. uitbijters zijn gegevens die verrassend zijn. Uitbijters kunnen univariate (op basis van één variabele) of multivariate zijn. Als je kijkt naar leeftijd en inkomen, zijn univariate uitbijters dingen zoals een persoon die 118 jaar oud is, of iemand die vorig jaar $ 12 miljoen verdiende. Een multivariate uitbijter zou een 18-jarige zijn die $ 200.000 verdiende. In dit geval is noch de leeftijd, noch het inkomen erg extreem, maar heel weinig 18-jarige mensen verdienen zoveel geld. Uitbijters kunnen grote gevolgen hebben voor de regressie. U kunt dit probleem oplossen door invloedsstatistieken op te vragen bij uw statistische software. Lineaire regressie veronderstelt dat de gegevens onafhankelijk zijn. Dat betekent dat de scores van het ene onderwerp (zoals een persoon) niets te maken hebben met die van een ander. Dit is vaak, maar niet altijd, verstandig. Twee veel voorkomende gevallen waarbij het niet logisch is, zijn clustering in ruimte en tijd. Een klassiek voorbeeld van clustering in de ruimte zijn studententestscores, wanneer u studenten uit verschillende klassen, klassen, scholen en schooldistricten hebt. Studenten in dezelfde klas lijken op veel manieren op elkaar, dat wil zeggen dat ze vaak uit dezelfde wijken komen, dezelfde leraren hebben, etc. Ze zijn dus niet onafhankelijk. Voorbeelden van clustering in de tijd zijn studies waarbij u dezelfde onderwerpen meerdere keren meet. In een onderzoek naar voeding en gewicht kunt u bijvoorbeeld elke persoon meerdere keren meten. Deze gegevens zijn niet onafhankelijk, omdat wat een persoon bij een gelegenheid weegt, verband houdt met wat hij of zij bij andere gelegenheden weegt. Een manier om hiermee om te gaan is met modellen met meerdere niveaus
en een of meer onafhankelijke variabelen, aangeduid als x
. De afhankelijke variabele moet continu zijn, omdat deze elke waarde kan aannemen, of op zijn minst dicht bij continu. De onafhankelijke variabelen kunnen van elk type zijn. Hoewel lineaire regressie op zichzelf geen oorzakelijk verband kan tonen, wordt de afhankelijke variabele meestal beïnvloed door de onafhankelijke variabelen.
Lineaire regressie is beperkt tot lineaire relaties
Lineaire regressie kijkt alleen naar het gemiddelde van de afhankelijke variabele
Lineaire regressie is gevoelig voor uitbijters
Data Must Onafhankelijke
Het menselijke been is een gecompliceerd stuk machines. Het is alleen in staat om zijn werk te doen door de gecompliceerde interactie van verschillende delen. Elk deel van het been bestaat uit zijn eigen
Wetenschap © https://nl.scienceaq.com