Jak obliczyć współczynnik korelacji

Patrząc na wykres rozrzutu, należy zadać wiele pytań. Jednym z najczęstszych jest zastanawianie się, jak dobrze linia przybliża dane. Aby odpowiedzieć na to pytanie, istnieje statystyka opisowa zwana współczynnikiem korelacji. Zobaczymy, jak obliczyć tę statystykę.

Współczynnik korelacji

The Współczynnik korelacji, oznaczony przez r, mówi nam, jak blisko dane w wykres punktowy spaść wzdłuż linii prostej. Im bliżej tego wartość bezwzględna z r jest jeden, tym lepiej, że dane są opisane równaniem liniowym. Gdyby r = 1 lub r = -1 wtedy zestaw danych jest idealnie wyrównany. Zestawy danych o wartościach r bliski zeru pokazuje niewielką lub żadną relację liniową.

Ze względu na długie obliczenia najlepiej obliczyć r za pomocą kalkulatora lub oprogramowania statystycznego. Jednak zawsze warto wiedzieć, co robi kalkulator podczas obliczania. Poniżej przedstawiono proces obliczania współczynnika korelacji głównie ręcznie, przy użyciu kalkulatora stosowanego do rutynowych kroków arytmetycznych.

Kroki do obliczeń r

instagram viewer

Zaczniemy od wyszczególnienia kroków do obliczenia współczynnika korelacji. Dane, z którymi pracujemy, to sparowane dane, z których każda para będzie oznaczona przez (xja, yja).

  1. Zaczynamy od kilku wstępnych obliczeń. Ilości z tych obliczeń zostaną wykorzystane w kolejnych etapach naszego obliczenia r:
    1. Oblicz x̄, the oznaczać wszystkich pierwszych współrzędnych danych xja.
    2. Oblicz ȳ, średnią wszystkich drugich współrzędnych danych
    3. yja.
    4. Oblicz s x próbka odchylenie standardowe wszystkich pierwszych współrzędnych danych xja.
    5. Oblicz s y przykładowe odchylenie standardowe wszystkich drugich współrzędnych danych yja.
  2. Użyj wzoru (zx)ja = (xja - x̄) / s x i obliczyć dla każdego znormalizowaną wartość xja.
  3. Użyj wzoru (zy)ja = (yja – ȳ) / s y i obliczyć dla każdego znormalizowaną wartość yja.
  4. Pomnóż odpowiednie znormalizowane wartości: (zx)ja(zy)ja
  5. Dodaj produkty z ostatniego kroku razem.
  6. Podziel sumę z poprzedniego kroku przez n - 1, gdzie n to łączna liczba punktów w naszym zestawie sparowanych danych. Wynikiem tego wszystkiego jest współczynnik korelacji r.

Proces ten nie jest trudny, a każdy krok jest dość rutynowy, ale gromadzenie wszystkich tych etapów jest dość zaangażowane. Samo obliczenie odchylenia standardowego jest dość nużące. Jednak obliczenie współczynnika korelacji obejmuje nie tylko dwa odchylenia standardowe, ale także wiele innych operacji.

Przykład

Aby zobaczyć dokładnie, jak wartość r uzyskamy patrzymy na przykład. Ponownie ważne jest, aby pamiętać, że do praktycznych zastosowań chcielibyśmy użyć naszego kalkulatora lub oprogramowania statystycznego do obliczeń r dla nas.

Zaczynamy od zestawienia sparowanych danych: (1, 1), (2, 3), (4, 5), (5,7). Średnia z x wartości, średnia 1, 2, 4 i 5 wynosi x̄ = 3. Mamy też to ȳ = 4. Odchylenie standardowe wartości

x wartości to sx = 1,83 i sy = 2.58. Poniższa tabela zawiera podsumowanie innych niezbędnych obliczeń r. Suma produktów w kolumnie po prawej stronie wynosi 2,969848. Ponieważ są w sumie cztery punkty i 4 - 1 = 3, dzielimy sumę produktów przez 3. To daje nam współczynnik korelacji wynoszący r = 2.969848/3 = 0.989949.

Tabela dla przykładu obliczenia współczynnika korelacji

x y zx zy zxzy
1 1 -1.09544503 -1.161894958 1.272792057
2 3 -0.547722515 -0.387298319 0.212132009
4 5 0.547722515 0.387298319 0.212132009
5 7 1.09544503 1.161894958 1.272792057