Skrót do sumy kwadratów

click fraud protection

Obliczenie a próba wariancja lub odchylenie standardowe jest zwykle podawany jako ułamek. Licznik tej frakcji obejmuje sumę kwadratowych odchyleń od średniej. W statystykach, wzór na tę sumę kwadratów wynosi

Σ (xja - x̄)2

Tutaj symbol x̄ odnosi się do średniej próbki, a symbol Σ mówi nam, aby dodać kwadratowe różnice (xja - x̄) dla wszystkich ja.

Chociaż ta formuła działa w przypadku obliczeń, istnieje równoważna formuła skrótu, która nie wymaga od nas obliczenia w pierwszej kolejności średnia próbki. Ta formuła skrótu dla sumy kwadratów to

Σ (xja2) - (Σ xja)2/n

Tutaj zmienna n odnosi się do liczby punktów danych w naszej próbie.

Przykład formuły standardowej

Aby zobaczyć, jak działa ta formuła skrótów, rozważymy przykład obliczony przy użyciu obu formuł. Załóżmy, że nasza próbka to 2, 4, 6, 8. Średnia próbki wynosi (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Teraz obliczamy różnicę dla każdego punktu danych ze średnią 5.

  • 2 – 5 = -3
  • 4 – 5 = -1
  • 6 – 5 = 1
  • 8 – 5 = 3

Teraz podbijamy każdą z tych liczb i dodajemy do siebie. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.

instagram viewer

Przykład formuły skrótowej

Teraz użyjemy tego samego zestawu danych: 2, 4, 6, 8 z formułą skrótu do ustalenia sumy kwadratów. Najpierw kwadratujemy każdy punkt danych i dodajemy do siebie: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.

Następnym krokiem jest zsumowanie wszystkich danych i zsumowanie tej sumy: (2 + 4 + 6 + 8)2 = 400. Dzielimy to przez liczbę punktów danych, aby uzyskać 400/4 = 100.

Odejmujemy teraz tę liczbę od 120. Daje nam to, że suma kwadratowych odchyleń wynosi 20. To była dokładnie liczba, którą już znaleźliśmy w innej formule.

Jak to działa?

Wiele osób akceptuje formułę po wartości nominalnej i nie ma pojęcia, dlaczego ta formuła działa. Używając odrobiny algebry, możemy zrozumieć, dlaczego ta formuła skrótu jest równoważna standardowemu, tradycyjnemu sposobowi obliczania sumy kwadratowych odchyleń.

Chociaż w prawdziwym świecie danych mogą być setki, jeśli nie tysiące wartości, założymy, że istnieją tylko trzy wartości danych: x1, x2, x3. To, co widzimy tutaj, można rozszerzyć do zestawu danych, który ma tysiące punktów.

Zaczynamy od zauważenia, że ​​(x1 + x2 + x3) = 3 x̄. Wyrażenie Σ (xja - x̄)2 = (x1 - x̄)2 + (x2 - x̄)2 + (x3 - x̄)2.

Używamy teraz faktu z podstawowej algebry, że (a + b)2 = a2 + 2ab + b2. Oznacza to, że (x1 - x̄)2 = x12 -2x1 x̄ + x̄2. Robimy to dla pozostałych dwóch warunków naszego podsumowania i mamy:

x12 -2x1 x̄ + x̄2 + x22 -2x2 x̄ + x̄2 + x32 -2x3 x̄ + x̄2.

Zmieniamy to i mamy:

x12+ x22 + x32+ 3x̄2 - 2x̄ (x1 + x2 + x3) .

Przepisując (x1 + x2 + x3) = 3x̄ powyższe staje się:

x12+ x22 + x32 - 3x̄2.

Teraz od 3x̄2 = (x1+ x2 + x3)2/ 3, nasza formuła staje się:

x12+ x22 + x32 - (x1+ x2 + x3)2/3

Jest to szczególny przypadek ogólnej formuły wspomnianej powyżej:

Σ (xja2) - (Σ xja)2/n

Czy to naprawdę skrót?

Może się nie wydawać, że ta formuła jest naprawdę skrótem. W końcu w powyższym przykładzie wydaje się, że jest tyle samo obliczeń. Częściowo ma to związek z faktem, że patrzyliśmy tylko na niewielką próbkę.

Gdy zwiększamy rozmiar naszej próbki, widzimy, że formuła skrótu zmniejsza liczbę obliczeń o około połowę. Nie musimy odejmować średniej z każdego punktu danych, a następnie kwadratować wynik. Ogranicza to znacznie całkowitą liczbę operacji.

instagram story viewer