Załóżmy, że mamy losowa próbka z interesującej populacji. Możemy mieć model teoretyczny dla sposobu, w jaki populacja jest rozpowszechniany. Jednak może być kilka populacji parametry których nie znamy wartości. Szacowanie maksymalnego prawdopodobieństwa jest jednym ze sposobów określenia tych nieznanych parametrów.
Podstawową ideą oszacowania maksymalnego prawdopodobieństwa jest to, że określamy wartości tych nieznanych parametrów. Robimy to w taki sposób, aby zmaksymalizować powiązaną funkcję gęstości prawdopodobieństwa połączenia lub prawdopodobieństwo funkcji masowej. Zobaczymy to bardziej szczegółowo w dalszej części. Następnie obliczymy kilka przykładów oszacowania maksymalnego prawdopodobieństwa.
Kroki do oszacowania maksymalnego prawdopodobieństwa
Powyższą dyskusję można podsumować następującymi krokami:
- Zacznij od próbki niezależnych zmiennych losowych X1, X2,... Xn ze wspólnego rozkładu, każdy z funkcją gęstości prawdopodobieństwa f (x; θ1,.. .θk). Thetas to nieznane parametry.
- Ponieważ nasza próbka jest niezależna, prawdopodobieństwo uzyskania konkretnej próbki, którą obserwujemy, można znaleźć, mnożąc nasze prawdopodobieństwa razem. To daje nam funkcję prawdopodobieństwa L (θ 1,.. .θk) = f (x1 ;θ1,.. .θk) f (x2 ;θ1,.. .θk)... f (xn ;θ1,.. .θk) = Π f (xja ;θ1,.. .θk).
- Następnie korzystamy Rachunek różniczkowy znaleźć wartości theta, które maksymalizują naszą funkcję prawdopodobieństwa L.
- Mówiąc dokładniej, rozróżniamy funkcję prawdopodobieństwa L względem θ, jeśli istnieje jeden parametr. Jeśli istnieje wiele parametrów, obliczamy częściowe pochodne L w odniesieniu do każdego z parametrów theta.
- Aby kontynuować proces maksymalizacji, ustaw pochodną L (lub pochodnych cząstkowych) równą zero i rozwiąż dla theta.
- Następnie możemy użyć innych technik (takich jak test drugiej pochodnej), aby sprawdzić, czy znaleźliśmy maksimum dla naszej funkcji prawdopodobieństwa.
Przykład
Załóżmy, że mamy pakiet nasion, z których każde ma stałe prawdopodobieństwo p sukcesu kiełkowania. Sadzimy n z nich i policz liczbę tych, które wykiełkują. Załóżmy, że każde nasiona kiełkują niezależnie od innych. W jaki sposób określamy estymator maksymalnego prawdopodobieństwa parametru p?
Zaczynamy od zauważenia, że każde ziarno jest modelowane przez dystrybucję Bernoulli z sukcesem p. Pozwalamy X albo 0, albo 1, a funkcja masy prawdopodobieństwa dla pojedynczego ziarna wynosi fa(x; p ) = px(1 - p)1 - x.
Nasza próbka składa się z n różne Xja, każdy z nich ma rozkład Bernoulliego. Nasiona, które wyrastają Xja = 1, a nasiona, które nie kiełkują, mają Xja = 0.
Funkcja prawdopodobieństwa jest dana przez:
L ( p ) = Π pxja(1 - p)1 - xja
Widzimy, że możliwe jest przepisanie funkcji prawdopodobieństwa przy użyciu praw wykładników.
L ( p ) = pΣ xja(1 - p)n - Σ xja
Następnie rozróżniamy tę funkcję w odniesieniu do p. Zakładamy, że wartości dla wszystkich Xja są znane, a zatem są stałe. Aby rozróżnić funkcję prawdopodobieństwa, musimy użyć reguła produktu wraz z regułą mocy:
L ”( p ) = Σ xjap-1 + Σ xja (1 - p)n - Σ xja- (n - Σ xja ) pΣ xja(1 - p)n-1 - Σ xja
Przepisujemy niektóre z wykładników ujemnych i mamy:
L ”( p ) = (1/p) Σ xjapΣ xja (1 - p)n - Σ xja- 1/(1 - p) (n - Σ xja ) pΣ xja(1 - p)n - Σ xja
= [(1/p) Σ xja - 1/(1 - p) (n - Σ xja)]japΣ xja (1 - p)n - Σ xja
Teraz, aby kontynuować proces maksymalizacji, ustawiamy tę pochodną na zero i rozwiązujemy p:
0 = [(1/p) Σ xja - 1/(1 - p) (n - Σ xja)]japΣ xja (1 - p)n - Σ xja
Od p i 1- p) są niezerowe, mamy to
0 = (1/p) Σ xja - 1/(1 - p) (n - Σ xja).
Pomnożenie obu stron równania przez p(1- p) daje nam:
0 = (1 - p) Σ xja - p (n - Σ xja).
Rozwijamy prawą stronę i widzimy:
0 = Σ xja - p Σ xja - pn + pΣ xja = Σ xja - pn.
Zatem Σ xja = pn i (1 / n) Σ xja = p. Oznacza to, że estymator największego prawdopodobieństwa p jest średnią próbną. Mówiąc dokładniej, jest to próbka nasion, które wykiełkowały. Jest to całkowicie zgodne z tym, co podpowiada nam intuicja. Aby określić odsetek nasion, które wykiełkują, najpierw rozważ próbkę z interesującej populacji.
Modyfikacje kroków
Istnieje kilka modyfikacji powyższej listy kroków. Na przykład, jak widzieliśmy powyżej, zwykle warto poświęcić trochę czasu na użycie algebry w celu uproszczenia wyrażenia funkcji prawdopodobieństwa. Powodem tego jest ułatwienie przeprowadzenia różnicowania.
Kolejną zmianą powyższej listy kroków jest rozważenie logarytmów naturalnych. Maksimum dla funkcji L wystąpi w tym samym punkcie, co dla logarytmu naturalnego L. Zatem maksymalizacja ln L jest równoważna maksymalizacji funkcji L.
Wiele razy, ze względu na obecność funkcji wykładniczych w L, przyjmowanie logarytmu naturalnego L znacznie uprości część naszej pracy.
Przykład
Widzimy, jak korzystać z logarytmu naturalnego, powracając do przykładu z góry. Zaczynamy od funkcji prawdopodobieństwa:
L ( p ) = pΣ xja(1 - p)n - Σ xja .
Następnie używamy naszych praw logarytmicznych i widzimy, że:
R ( p ) = ln L ( p ) = Σ xja ln p + (n - Σ xja) ln (1 - p).
Widzimy już, że pochodna jest znacznie łatwiejsza do obliczenia:
R '( p ) = (1/p) Σ xja - 1/(1 - p)(n - Σ xja) .
Teraz, jak poprzednio, ustawiamy tę pochodną na zero i mnożymy obie strony przez p (1 - p):
0 = (1- p ) Σ xja - p(n - Σ xja) .
Rozwiązujemy dla p i znajdź taki sam wynik jak poprzednio.
Zastosowanie logarytmu naturalnego L (p) jest pomocne w inny sposób. O wiele łatwiej jest obliczyć drugą pochodną R (p), aby sprawdzić, czy naprawdę mamy maksimum w punkcie (1 / n) Σ xja = p.
Przykład
Dla innego przykładu załóżmy, że mamy losową próbkę X1, X2,... Xn z populacji, którą modelujemy z rozkładem wykładniczym. Funkcja gęstości prawdopodobieństwa dla jednej zmiennej losowej ma postać fa( x ) = θ-1mi -x/θ
Funkcja prawdopodobieństwa jest określona przez łączną funkcję gęstości prawdopodobieństwa. Jest to wynik kilku z tych funkcji gęstości:
L (θ) = Π θ-1mi -xja/θ = θ-nmi -Σxja/θ
Ponownie pomocne jest rozważenie logarytmu naturalnego funkcji prawdopodobieństwa. Wyróżnienie tego będzie wymagało mniej pracy niż różnicowanie funkcji wiarygodności:
R (θ) = ln L (θ) = ln [θ-nmi -Σxja/θ]
Korzystamy z naszych praw logarytmów i uzyskujemy:
R (θ) = ln L (θ) = - n W θ + -Σxja/θ
Rozróżniamy w odniesieniu do θ i mamy:
R '(θ) = - n / θ + Σxja/θ2
Ustaw tę pochodną na zero i widzimy, że:
0 = - n / θ + Σxja/θ2.
Pomnóż obie strony przez θ2 a wynikiem jest:
0 = - n θ + Σxja.
Teraz użyj algebry do rozwiązania dla θ:
θ = (1 / n) Σxja.
Widzimy z tego, że średnia próbki jest tym, co maksymalizuje funkcję prawdopodobieństwa. Parametr θ pasujący do naszego modelu powinien po prostu być średnią wszystkich naszych obserwacji.
Znajomości
Istnieją inne rodzaje estymatorów. Jeden alternatywny typ oszacowania nosi nazwę an obiektywny estymator. W przypadku tego typu musimy obliczyć oczekiwaną wartość naszej statystyki i ustalić, czy pasuje ona do odpowiedniego parametru.