Jak oszacować odchylenia standardowe (SD)

Odchylenie standardowe i zakres są zarówno miarami rozprzestrzenianie się zestawu danych. Każda liczba mówi nam na swój sposób, jak rozłożone są dane, ponieważ oba są miarą zmienności. Chociaż nie ma wyraźnego związku między zakres i odchylenie standardowe, tam jest praktyczna zasada które mogą być przydatne do powiązania tych dwóch statystyk. Ta zależność jest czasami określana jako reguła zakresu dla odchylenia standardowego.

Reguła zakresu mówi nam, że odchylenie standardowe próbki jest w przybliżeniu równe jednej czwartej zakresu danych. Innymi słowys = (Maksimum - minimum) / 4. Jest to bardzo prosta w użyciu formuła i powinna być stosowana tylko jako bardzo szorstka oszacowanie odchylenia standardowego.

Przykład

Aby zobaczyć przykład działania reguły zakresu, przyjrzymy się następującemu przykładowi. Załóżmy, że zaczynamy od wartości danych 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Te wartości mają oznaczać 17 i odchylenie standardowe około 4,1. Jeśli zamiast tego najpierw obliczymy zakres naszych danych jako 25 - 12 = 13, a następnie podziel tę liczbę przez cztery, szacujemy odchylenie standardowe na 13/4 = 3,25. Liczba ta jest względnie zbliżona do prawdziwego odchylenia standardowego i jest odpowiednia do przybliżonego oszacowania.

instagram viewer

Dlaczego to działa?

Może się wydawać, że zasada zasięgu jest nieco dziwna. Dlaczego to działa? Czy podzielenie zakresu przez cztery nie wydaje się całkowicie arbitralne? Dlaczego nie podzielilibyśmy się przez inną liczbę? Za kulisami dzieje się jakieś matematyczne uzasadnienie.

Przywołaj właściwości krzywa dzwonowa i prawdopodobieństwa z standardowy rozkład normalny. Jedna funkcja dotyczy ilości danych, która mieści się w pewnej liczbie odchyleń standardowych:

  • Około 68% danych mieści się w granicach jednego odchylenia standardowego (wyższego lub niższego) od średniej.
  • Około 95% danych mieści się w dwóch standardowych odchyleniach (wyższych lub niższych) od średniej.
  • Około 99% mieści się w granicach trzech standardowych odchyleń (wyższych lub niższych) od średniej.

Liczba, której użyjemy, dotyczy 95%. Możemy powiedzieć, że 95% z dwóch odchyleń standardowych poniżej średniej do dwóch odchyleń standardowych powyżej średniej mamy 95% naszych danych. W ten sposób prawie cały nasz rozkład normalny rozciągałby się na odcinku linii o długości czterech standardowych odchyleń.

Nie wszystkie dane są zwykle rozłożone i mają kształt krzywej dzwonowej. Ale większość danych jest wystarczająco grzeczna, że ​​odejście o dwa standardowe odchylenia od średniej przechwytuje prawie wszystkie dane. Szacujemy i mówimy, że cztery odchylenia standardowe są w przybliżeniu wielkością zakresu, a zatem przedział podzielony przez cztery jest przybliżonym przybliżeniem odchylenia standardowego.

Wykorzystuje regułę zasięgu

Zasada zasięgu jest pomocna w wielu ustawieniach. Po pierwsze, jest to bardzo szybki szacunek odchylenia standardowego. Odchylenie standardowe wymaga od nas najpierw znalezienia średniej, a następnie odjęcia tej średniej od każdego punktu danych, kwadratowego różnice, dodaj je, podziel przez jeden mniej niż liczbę punktów danych, a następnie (w końcu) obierz kwadrat korzeń. Z drugiej strony reguła zasięgu wymaga tylko jednego odjęcia i jednego podziału.

Inne miejsca, w których reguła zasięgu jest przydatna, to gdy mamy niepełne informacje. Formuły takie jak te określające wielkość próby wymagają trzech informacji: pożądanych margines błędu, poziom pewności siebie oraz standardowe odchylenie populacji, którą badamy. Wiele razy nie można wiedzieć, jaka jest populacja odchylenie standardowe jest. Za pomocą reguły zakresu możemy oszacować tę statystykę, a następnie wiedzieć, jak dużą powinniśmy zrobić naszą próbkę.