Różnice między korelacją a przyczyną

Pewnego dnia podczas lunchu młoda kobieta zjadła dużą miskę lodów, a inny członek wydziału podszedł do niej i powiedział: „Lepiej bądź ostrożny, jest wysoki statystycznykorelacja między lodami a utonięciem. ” Musiała rzucić mu zmieszane spojrzenie, gdy on rozwinął nieco więcej. „W dniach, w których lody są najchętniej sprzedawane, najwięcej ludzi tonie”.

Kiedy skończyła moje lody, dwaj koledzy dyskutowali o tym, że fakt, że jedna zmienna jest statystycznie powiązana z drugą, nie oznacza, że ​​jedna jest przyczyną drugiej. Czasami w tle ukrywa się zmienna. W tym przypadku dzień roku ukrywa się w danych. Więcej lodów sprzedaje się w upalne letnie dni niż śnieżne zimowe. Więcej osób pływa latem, a tym samym bardziej tonie latem niż zimą.

Uwaga na czające się zmienne

Powyższa anegdota jest doskonałym przykładem tak zwanej czającej się zmiennej. Jak sama nazwa wskazuje, zmienna czająca się może być nieuchwytna i trudna do wykrycia. Kiedy stwierdzimy, że dwa zestawy danych liczbowych są silnie skorelowane, zawsze powinniśmy zapytać: „Czy może istnieć coś innego, co powoduje ten związek?”

instagram viewer

Oto przykłady silnej korelacji spowodowanej przez czającą się zmienną:

  • Średnia liczba komputerów na osobę w danym kraju i średnia długość życia w tym kraju.
  • Liczba strażaków przy ogniu i szkody spowodowane przez pożar.
  • Wysokość ucznia szkoły podstawowej i jego poziom czytania.

We wszystkich tych przypadkach związek między zmiennymi jest bardzo silny. Zazwyczaj jest to oznaczone symbolem Współczynnik korelacji o wartości bliskiej 1 lub -1. Nie ma znaczenia, jak blisko ten współczynnik korelacji jest równy 1 lub -1, ta statystyka nie może wykazać, że jedna zmienna jest przyczyną drugiej zmiennej.

Wykrywanie zmiennych czających się

Z natury zmienne czające się są trudne do wykrycia. Jedną ze strategii, jeśli jest dostępna, jest sprawdzenie, co dzieje się z danymi w czasie. Może to ujawnić trendy sezonowe, takie jak przykład lodów, które są zasłaniane, gdy dane są gromadzone razem. Inną metodą jest spojrzenie wartości odstające i spróbuj ustalić, co ich różni od innych danych. Czasami stanowi to wskazówkę dotyczącą tego, co dzieje się za kulisami. Najlepszym rozwiązaniem jest być proaktywnym; ostrożnie kwestionuj założenia i eksperymenty projektowe.

Dlaczego to ma znaczenie?

W scenariuszu otwierającym załóżmy, że kongresmen mający dobre intencje, ale statystycznie niedoinformowany zaproponował zakazanie wszelkich lodów, aby zapobiec utonięciu. Taki rachunek byłby niewygodny dla dużych grup ludności, zmusiłby kilka firm do bankructwa i wyeliminowałby tysiące miejsc pracy w związku z zamknięciem krajowego przemysłu lodów. Pomimo najlepszych intencji, ustawa ta nie zmniejszyłaby liczby zgonów tonących.

Jeśli ten przykład wydaje się zbyt daleko posunięty, zastanów się, co się naprawdę wydarzyło. Na początku XX wieku lekarze zauważyli, że niektóre niemowlęta w tajemniczy sposób umierają we śnie z powodu problemów z oddychaniem. Nazywało się to śmiercią łóżeczkową i obecnie jest znane jako SIDS. Jedną z rzeczy, które odstąpiły od sekcji zwłok zmarłych na SIDS, była powiększona grasica, gruczoł znajdujący się w klatce piersiowej. Na podstawie korelacji powiększonych grasicy u niemowląt z SIDS lekarze zakładali, że nienormalnie duży grasica spowodował nieprawidłowe oddychanie i śmierć.

Zaproponowane rozwiązanie polegało na zmniejszeniu grasicy przy dużym natężeniu promieniowania lub całkowitym usunięciu gruczołu. Procedury te miały wysoką śmiertelność i doprowadziły do ​​jeszcze większej liczby zgonów. Smutne jest to, że te operacje nie musiały zostać wykonane. Późniejsze badania wykazały, że lekarze mylili się w swoich założeniach i że grasica nie jest odpowiedzialna za SIDS.

Korelacja nie oznacza związku przyczynowego

Powyższe powinno sprawić, że zatrzymamy się, gdy uznamy, że dowody statystyczne są wykorzystywane do uzasadnienia takich rzeczy, jak schematy medyczne, ustawodawstwo i propozycje edukacyjne. Ważne jest, aby dobrze interpretować dane, zwłaszcza jeśli wyniki dotyczące korelacji wpłyną na życie innych.

Kiedy ktoś mówi: „Badania pokazują, że A jest przyczyną B, a niektóre statystyki ją potwierdzają”, bądźcie gotowi odpowiedz: „korelacja nie oznacza związku przyczynowego”. Zawsze uważaj na to, co czai się pod dane.