Co to jest korelacja w statystyce?

Czasami dane liczbowe przychodzą w parach. Być może a paleontolog mierzy długości kości udowej (kości nóg) i kości ramiennej (kości ramienia) w pięciu skamielinach tego samego gatunku dinozaurów. Sensowne może być rozważenie długości ramion niezależnie od długości nóg i obliczenie takich wartości, jak średnia lub odchylenie standardowe. Ale co, jeśli badacz jest ciekawy, czy istnieje związek między tymi dwoma pomiarami? Nie wystarczy po prostu patrzeć na ręce oddzielnie od nóg. Zamiast tego paleontolog powinien sparować długości kości dla każdego szkieletu i użyć obszaru o wartości Statystyka znany jako korelacja.

Co to jest korelacja? W powyższym przykładzie załóżmy, że badacz zbadał dane i doszedł do niezbyt zaskakującego w rezultacie skamieliny dinozaurów o dłuższych rękach miały także dłuższe nogi, a skamieliny o krótszych ramionach krótsze nogi. Wykres rozrzutu danych pokazał, że wszystkie punkty danych były skupione w pobliżu linii prostej. Badacz powiedziałby wówczas, że istnieje silny związek linii prostej, lub

instagram viewer
korelacja, między długościami kości ramion i kości nóg skamielin. Potrzeba więcej pracy, aby stwierdzić, jak silna jest korelacja.

Korelacje i wykresy rozrzutu

Ponieważ każdy punkt danych reprezentuje dwie liczby, dwuwymiarowy wykres rozproszenia stanowi wielką pomoc w wizualizacji danych. Załóżmy, że faktycznie mamy dane na temat dinozaurów, a pięć skamielin ma następujące wymiary:

  1. Kość udowa 50 cm, kość ramienna 41 cm
  2. Kość udowa 57 cm, kość ramienna 61 cm
  3. Kość udowa 61 cm, kość ramienna 71 cm
  4. Kość udowa 66 cm, kość ramienna 70 cm
  5. Kość udowa 75 cm, kość ramienna 82 cm

Wykres rozrzutu danych z pomiarem kości udowej w kierunku poziomym i pomiarem kości ramiennej w kierunku pionowym daje powyższy wykres. Każdy punkt reprezentuje pomiary jednego z szkieletów. Na przykład punkt w lewym dolnym rogu odpowiada szkieletowi nr 1. Punkt w prawym górnym rogu to szkielet # 5.

Z pewnością wygląda na to, że moglibyśmy narysować linię prostą, która byłaby bardzo blisko wszystkich punktów. Ale jak możemy powiedzieć na pewno? Bliskość jest w oku patrzącego. Skąd wiemy, że nasze definicje „bliskości” pasują do kogoś innego? Czy jest jakiś sposób, aby określić tę bliskość?

Współczynnik korelacji

Aby obiektywnie zmierzyć odległość danych od linii prostej, na ratunek przychodzi współczynnik korelacji. The Współczynnik korelacji, zwykle oznaczane r, jest liczbą rzeczywistą z zakresu od -1 do 1. Wartość r mierzy siłę korelacji na podstawie wzoru, eliminując wszelką subiektywność w tym procesie. Podczas interpretowania wartości należy wziąć pod uwagę kilka wskazówek r.

  • Gdyby r = 0, więc punkty są kompletną zbieraniną bez absolutnie żadnego związku linii między danymi.
  • Gdyby r = -1 lub r = 1, a następnie wszystkie punkty danych idealnie pasują do siebie na linii.
  • Gdyby r jest wartością inną niż te skrajności, wówczas wynikiem jest mniej niż idealne dopasowanie linii prostej. W rzeczywistych zestawach danych jest to najczęstszy wynik.
  • Gdyby r jest dodatnia, wtedy linia idzie w górę z dodatnie nachylenie. Gdyby r jest ujemna, a następnie linia spada w dół z ujemnym nachyleniem.

Obliczanie współczynnika korelacji

Wzór na współczynnik korelacji r jest skomplikowane, jak widać tutaj. Składnikami formuły są średnie i standardowe odchylenia obu zestawów danych liczbowych, a także liczba punktów danych. Do najbardziej praktycznych zastosowań r nużące jest obliczanie ręczne. Jeśli nasze dane zostały wprowadzone do kalkulatora lub programu do obsługi arkuszy kalkulacyjnych za pomocą polecenia statystyczne, wtedy zwykle jest wbudowana funkcja do obliczenia r.

Ograniczenia korelacji

Chociaż korelacja jest potężnym narzędziem, istnieją pewne ograniczenia w jej stosowaniu:

  • Korelacja nie mówi nam wszystkiego o danych. Istotne są nadal środki i odchylenia standardowe.
  • Dane można opisać krzywą bardziej skomplikowaną niż linia prosta, ale nie pojawi się to w obliczeniach r.
  • Wartości odstające silnie wpływają na współczynnik korelacji. Jeśli widzimy jakieś wartości odstające w naszych danych, powinniśmy uważać na to, jakie wnioski wyciągamy z wartości r.
  • Tylko dlatego, że dwa zestawy danych są skorelowane, nie oznacza to, że jeden jest przyczyna z drugiej.