Przykład testu dobroci dopasowania

The test dobroci dopasowania chi-kwadrat jest przydatny do porównania Model teoretyczny do obserwowanych danych. Ten test jest rodzajem bardziej ogólnego testu chi-kwadrat. Podobnie jak w przypadku każdego tematu w matematyce lub statystyce, pomocne może być przeanalizowanie przykładu, aby zrozumieć, co się dzieje, na przykładzie testu dobroci dopasowania chi-kwadrat.

Rozważ standardowy pakiet mlecznej czekolady M & Ms. Istnieje sześć różnych kolorów: czerwony, pomarańczowy, żółty, zielony, niebieski i brązowy. Załóżmy, że jesteśmy ciekawi rozmieszczenia tych kolorów i pytamy, czy wszystkie sześć kolorów występuje w równych proporcjach? Na ten rodzaj pytania można odpowiedzieć testem dopasowania.

Oprawa

Zaczynamy od zanotowania ustawienia i tego, dlaczego test dopasowania jest odpowiedni. Nasza zmienna koloru ma charakter kategoryczny. Istnieje sześć poziomów tej zmiennej, odpowiadających sześciu możliwym kolorom. Zakładamy, że liczone M & M będą prostą próbą losową z populacji wszystkich M & M.

instagram viewer

Hipotezy zerowe i alternatywne

The hipotezy zerowe i alternatywne nasz test dobroci dopasowania odzwierciedla założenie, które przyjmujemy na temat populacji. Ponieważ testujemy, czy kolory występują w równych proporcjach, naszą zerową hipotezą będzie, że wszystkie kolory występują w tej samej proporcji. Bardziej formalnie, jeśli p1 to odsetek populacji czerwonych cukierków, p2 to odsetek populacji pomarańczowych cukierków itd., a więc hipoteza zerowa p1 = p2 =... = p6 = 1/6.

Alternatywna hipoteza jest taka, że ​​przynajmniej jedna z proporcji populacji nie jest równa 1/6.

Rzeczywiste i oczekiwane liczby

Rzeczywiste liczby to liczba cukierków dla każdego z sześciu kolorów. Oczekiwana liczba odnosi się do tego, czego moglibyśmy oczekiwać, gdyby hipoteza zerowa była prawdziwa. Pozwolimy n być wielkości naszej próbki. Oczekiwana liczba czerwonych cukierków to p1 n lub n/6. W rzeczywistości w tym przykładzie oczekiwana liczba cukierków dla każdego z sześciu kolorów jest po prostu n czasy pjalub n/6.

Statystyka chi-kwadrat dla dobroci dopasowania

Teraz obliczymy statystyki chi-kwadrat dla konkretnego przykładu. Załóżmy, że mamy prostą losową próbkę 600 cukierków M&M o następującej dystrybucji:

  • 212 cukierków jest niebieskich.
  • 147 cukierków jest pomarańczowych.
  • 103 cukierki są zielone.
  • 50 cukierków jest czerwonych.
  • 46 cukierków jest żółtych.
  • 42 cukierki są brązowe.

Gdyby hipoteza zerowa była prawdziwa, oczekiwane liczby dla każdego z tych kolorów wynosiłyby (1/6) x 600 = 100. Teraz używamy tego w naszych obliczeniach statystyki chi-kwadrat.

Wkład do naszej statystyki obliczamy na podstawie każdego z kolorów. Każda ma formę (rzeczywista - oczekiwana)2/Expected.:

  • Na niebieski mamy (212-100)2/100 = 125.44
  • Dla pomarańczy mamy (147-100)2/100 = 22.09
  • Na zielone mamy (103 - 100)2/100 = 0.09
  • Dla czerwonych mamy (50-100)2/100 = 25
  • Na żółty mamy (46 - 100)2/100 = 29.16
  • Na brązowy mamy (42-100)2/100 = 33.64

Następnie sumujemy wszystkie te wkłady i ustalamy, że nasza statystyka chi-kwadrat wynosi 125,44 + 22,09 + 0,09 + 25 + 29,16 + 33,64 = 235,42.

Stopnie swobody

Liczba stopnie swobody test dobroci dopasowania jest po prostu o jeden mniejszy niż liczba poziomów naszej zmiennej. Ponieważ było sześć kolorów, mamy 6 - 1 = 5 stopni swobody.

Tabela chi-kwadrat i wartość P.

Obliczona przez nas statystyki chi-kwadrat z 235,42 odpowiadają konkretnej lokalizacji na rozkładzie chi-kwadrat z pięcioma stopniami swobody. Teraz potrzebujemy wartość p, określa prawdopodobieństwo uzyskania statystyki testowej co najmniej tak ekstremalnej jak 235,42 przy założeniu, że hipoteza zerowa jest prawdziwa.

Do tego obliczenia można użyć programu Microsoft Excel. Okazuje się, że nasza statystyka testowa z pięcioma stopniami swobody ma wartość p wynoszącą 7,29 x 10-49. Jest to wyjątkowo mała wartość p.

Reguła decyzyjna

Decyzję o tym, czy odrzucić hipotezę zerową, podejmujemy na podstawie wielkości wartości p. Ponieważ mamy bardzo małą wartość p, odrzucamy hipotezę zerową. Dochodzimy do wniosku, że M & M nie są równomiernie rozłożone na sześć różnych kolorów. W celu ustalenia przedziału ufności dla proporcji populacji dla jednego określonego koloru można zastosować dalszą analizę.