Przedział ufności dla różnicy dwóch proporcji populacji

Przedziały ufności są jedną częścią wnioskowanie statystyczne. Podstawową ideą tego tematu jest oszacowanie wartości nieznanej populacji parametr za pomocą próby statystycznej. Możemy nie tylko oszacować wartość parametru, ale możemy również dostosować nasze metody do oszacowania różnicy między dwoma powiązanymi parametrami. Na przykład możemy chcieć znaleźć różnicę w odsetku mężczyzn głosujących w Stanach Zjednoczonych, którzy popierają określony akt prawny w porównaniu do populacji kobiet głosujących.

Zobaczymy, jak wykonać tego rodzaju obliczenia, konstruując przedział ufności dla różnicy dwóch proporcji populacji. W trakcie tego procesu przeanalizujemy część teorii leżącą u podstaw tego obliczenia. Zobaczymy pewne podobieństwa w sposobie konstruowania przedział ufności dla pojedynczego odsetka populacji a także przedział ufności dla różnicy dwóch średnich populacji.

Ogólne informacje

Zanim przyjrzymy się konkretnej formule, której będziemy używać, zastanówmy się nad ogólnymi ramami, w które wpisuje się ten typ przedziału ufności. Forma rodzaju przedziału ufności, na który będziemy patrzeć, jest określona następującą formułą:

instagram viewer

Oszacuj margines błędu +/-

Wiele przedziałów ufności jest tego typu. Są dwie liczby, które musimy obliczyć. Pierwszą z tych wartości jest oszacowanie parametru. Druga wartość to margines błędu. Ten margines błędu uwzględnia fakt, że mamy oszacowanie. Przedział ufności zapewnia nam zakres możliwych wartości dla naszego nieznanego parametru.

Warunki

Przed wykonaniem jakichkolwiek obliczeń powinniśmy upewnić się, że wszystkie warunki są spełnione. Aby znaleźć przedział ufności dla różnicy dwóch proporcji populacji, musimy upewnić się, że następujące wstrzymanie:

Mamy dwa proste losowe próbki z dużych populacji. Tutaj „duża” oznacza, że populacja jest co najmniej 20 razy większa niż liczebność próby. Rozmiary próbek zostaną oznaczone symbolem n₁ i n₂.
Nasze osoby zostały wybrane niezależnie od siebie.
W każdej z naszych próbek jest co najmniej dziesięć sukcesów i dziesięć porażek.

Jeśli ostatni element na liście nie jest spełniony, może być na to sposób. Możemy zmodyfikować plus cztery przedziały ufności zbudować i uzyskać solidne wyniki. Idąc dalej, zakładamy, że wszystkie powyższe warunki zostały spełnione.

Próbki i proporcje populacji

Teraz jesteśmy gotowi skonstruować przedział ufności. Zaczynamy od oszacowania różnicy między naszymi proporcjami populacji. Oba te proporcje populacji są szacowane na podstawie proporcji próby. Te proporcje próbek są statystykami, które można znaleźć, dzieląc liczbę sukcesów w każdej próbce, a następnie dzieląc przez odpowiednią wielkość próby.

Pierwszy odsetek populacji jest oznaczony przez p₁. Jeśli liczba sukcesów w naszej próbie z tej populacji wynosi k₁, to mamy próbkę proporcjonalną do k₁ / n_1.

Oznaczamy tę statystykę p̂₁. Odczytujemy ten symbol jako „p₁-hat ", ponieważ wygląda jak symbol p₁ z czapką na górze.

W podobny sposób możemy obliczyć proporcję próby z naszej drugiej populacji. Parametrem z tej populacji jest p₂. Jeśli liczba sukcesów w naszej próbie z tej populacji wynosi k₂, a nasz udział w próbce wynosi p̂₂= k₂ / n_2.

Te dwie statystyki stają się pierwszą częścią naszego przedziału ufności. Szacunek dla p₁ jest p̂₁. Szacunek dla p₂ jest p̂_2.Więc oszacuj różnicę p₁ - p₂ jest p̂₁- p̂_2.

Rozkład próbkowania różnicy proporcji próbek

Następnie musimy uzyskać wzór na margines błędu. Aby to zrobić, najpierw rozważymy dystrybucja próbek z p̂₁. Jest to rozkład dwumianowy z prawdopodobieństwem sukcesu p₁ i n₁ próby. Średnia tego rozkładu to proporcja p₁. Odchylenie standardowe tego typu zmiennej losowej ma wariancję p₁(1 - p₁)/n₁.

Rozkład próbkowania p̂₂jest podobny do p of₁. Po prostu zmień wszystkie wskaźniki z 1 na 2, a my mamy rozkład dwumianowy ze średnią p₂i wariancja p₂(1 - p₂)/n₂.

Potrzebujemy teraz kilku wyników ze statystyki matematycznej, aby określić rozkład próbkowania p̂₁- p̂₂. Średnia tego rozkładu wynosi p₁ - p₂. Ze względu na fakt, że wariancje sumują się, widzimy, że wariancja rozkładu próbkowania jest p₁(1 - p₁)/n₁ + p₂(1 - p₂)/n_2.Standardowe odchylenie rozkładu jest pierwiastkiem kwadratowym tej formuły.

Jest kilka korekt, które musimy wprowadzić. Po pierwsze, wzór na odchylenie standardowe p̂₁- p̂₂ używa nieznanych parametrów p₁i p₂. Oczywiście, gdybyśmy naprawdę znali te wartości, nie byłby to wcale interesujący problem statystyczny. Nie musielibyśmy oszacować różnicy między nimi p₁i p_2..Zamiast tego moglibyśmy po prostu obliczyć dokładną różnicę.

Problem ten można rozwiązać, obliczając błąd standardowy zamiast odchylenia standardowego. Wszystko, co musimy zrobić, to zastąpić proporcje populacji proporcjami próby. Błędy standardowe są obliczane na podstawie statystyk zamiast parametrów. Błąd standardowy jest użyteczny, ponieważ skutecznie szacuje odchylenie standardowe. Dla nas oznacza to, że nie musimy już znać wartości parametrów p₁ i p₂. .Ponieważ te proporcje próbki są znane, błąd standardowy podaje pierwiastek kwadratowy z następującego wyrażenia:

p̂₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.

Drugim zagadnieniem, którym musimy się zająć, jest szczególna forma naszego rozkładu próbkowania. Okazuje się, że możemy użyć rozkładu normalnego do przybliżenia rozkładu próbkowania p̂₁- p̂₂. Powód tego jest nieco techniczny, ale został opisany w następnym akapicie.

Oba p̂₁i p₂mieć rozkład próbkowania, który jest dwumianowy. Każdy z tych rozkładów dwumianowych można całkiem dobrze aproksymować rozkładem normalnym. Zatem p̂₁- p̂₂jest zmienną losową. Powstaje jako liniowa kombinacja dwóch zmiennych losowych. Każdy z nich jest aproksymowany rozkładem normalnym. Dlatego rozkład próbkowania p̂₁- p̂₂jest również zwykle dystrybuowany.

Formuła przedziału ufności

Mamy teraz wszystko, czego potrzebujemy, aby zebrać przedział ufności. Szacunkowa wartość to (p̂₁- p̂₂), a margines błędu wynosi z * [p̂₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5. Wartość, dla której wprowadzamy z * jest podyktowany poziomem zaufania DO. Często używane wartości dla z * wynoszą 1,645 dla 90% pewności i 1,96 dla 95% pewności. Te wartości dla z * gdzie dokładnie określa część standardowego rozkładu normalnego do procent rozkładu jest pomiędzy -z * i z *.

Poniższa formuła podaje przedział ufności dla różnicy dwóch proporcji populacji:

(p̂₁- p̂₂) +/- z * [p̂₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5