Statystyka i analiza regresji liniowej

Regresja liniowa jest techniką statystyczną, która służy do dowiedzenia się więcej o zależności między zmienną niezależną (predyktorem) a zmienną zależną (kryterium). Jeśli w analizie występuje więcej niż jedna zmienna niezależna, określa się to jako wielokrotną regresję liniową. Ogólnie regresja pozwala badaczowi zadać ogólne pytanie „Jaki jest najlepszy predyktor…?”

Załóżmy na przykład, że badaliśmy przyczyny otyłość, mierzone wskaźnikiem masy ciała (BMI). W szczególności chcieliśmy sprawdzić, czy następujące zmienne były znaczącymi predyktorami BMI danej osoby: liczba fast foodów posiłki spożywane tygodniowo, liczba godzin oglądania telewizji w tygodniu, liczba minut spędzonych na ćwiczeniach w tygodniu oraz liczba rodziców BMI. Regresja liniowa byłaby dobrą metodologią dla tej analizy.

Równanie regresji

Podczas przeprowadzania analizy regresji z jedną zmienną niezależną równanie regresji wynosi Y = a + b * X gdzie Y jest zmienną zależną, X jest zmienną niezależną, a jest stałą (lub punktem przecięcia), a b jest

instagram viewer

nachylenie linii regresji. Załóżmy na przykład, że GPA najlepiej przewidzieć na podstawie równania regresji 1 + 0,02 * IQ. Jeśli student miał IQ 130, jego GPA wynosiłby 3,6 (1 + 0,02 * 130 = 3,6).

Gdy przeprowadzasz analizę regresji, w której masz więcej niż jedną zmienną niezależną, równanie regresji to Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Na przykład, jeśli chcielibyśmy uwzględnić więcej zmiennych w naszej analizie GPA, takich jak miary motywacji i samodyscypliny, wykorzystalibyśmy to równanie.

Plac R

Kwadrat R, znany również jako współczynnik determinacji, to powszechnie stosowana statystyka do oceny dopasowania modelu równania regresji. To znaczy, jak dobre są wszystkie twoje zmienne niezależne w przewidywaniu zmiennej zależnej? Wartość R-kwadrat mieści się w zakresie od 0,0 do 1,0 i można ją pomnożyć przez 100, aby uzyskać wartość procentową zmienność wyjaśniono. Na przykład wracając do naszego równania regresji GPA z tylko jedną zmienną niezależną (IQ)… Powiedzmy, że nasza Kwadrat R dla równania wynosił 0,4. Możemy to zinterpretować w ten sposób, że wyjaśnia 40% wariancji GPA ILORAZ INTELIGENCJI. Jeśli dodamy nasze pozostałe dwie zmienne (motywację i samodyscyplinę), a R-kwadrat wzrośnie do 0.6 oznacza to, że iloraz inteligencji, motywacja i samodyscyplina razem wyjaśniają 60% wariancji w GPA wyniki.

Analizy regresji są zwykle wykonywane przy użyciu oprogramowania statystycznego, takiego jak SPSS lub SAS, a zatem obliczany jest dla Ciebie R-kwadrat.

Interpretacja współczynników regresji (b)

Współczynniki b z powyższych równań reprezentują siłę i kierunek zależności między zmiennymi niezależnymi i zależnymi. Jeśli spojrzymy na równanie GPA i IQ, 1 + 0,02 * 130 = 3,6, 0,02 jest współczynnikiem regresji dla zmiennej IQ. To mówi nam, że kierunek relacji jest pozytywny, więc wraz ze wzrostem IQ wzrasta również GPA. Gdyby równanie to 1 - 0,02 * 130 = Y, oznaczałoby to, że związek między IQ a GPA był ujemny.

Założenia

Istnieje kilka założeń dotyczących danych, które należy spełnić, aby przeprowadzić analizę regresji liniowej:

Liniowość: Zakłada się, że związek między zmiennymi niezależnymi i zależnymi jest liniowy. Chociaż tego założenia nigdy nie można w pełni potwierdzić, patrząc na wykres punktowy twoich zmiennych może pomóc w dokonaniu tego ustalenia. Jeśli występuje krzywizna w związku, możesz rozważyć przekształcenie zmiennych lub wyraźne uwzględnienie składników nieliniowych.
Normalność: Zakłada się, że pozostałości z twoich zmiennych są zwykle rozłożone. Oznacza to, że błędy w przewidywaniu wartości Y (zmiennej zależnej) są rozkładane w sposób zbliżony do krzywej normalnej. Możesz na to spojrzeć histogramy lub normalne wykresy prawdopodobieństwa w celu sprawdzenia rozkładu zmiennych i ich wartości rezydualnych.
Niezależność: Zakłada się, że wszystkie błędy w przewidywaniu wartości Y są od siebie niezależne (nieskorelowane).
Homoscedastyczność: Zakłada się, że wariancja wokół linii regresji jest taka sama dla wszystkich wartości zmiennych niezależnych.

Źródło

_{StatSoft: Podręcznik statystyki elektronicznej. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.}