Statystyki podsumowujące, takie jak mediana, pierwszy kwartyl i trzeci kwartyl są pomiary pozycji. Wynika to z faktu, że liczby te wskazują, gdzie leży określona część rozkładu danych. Na przykład mediana jest środkową pozycją badanych danych. Połowa danych ma wartości mniejsze niż mediana. Podobnie, 25% danych ma wartości mniejsze niż pierwszy kwartyl, a 75% danych ma wartości mniejsze niż trzeci kwartyl.
Ta koncepcja może zostać uogólniona. Jednym ze sposobów na to jest rozważenie percentyle. 90 percentyl wskazuje punkt, w którym 90% procent danych ma wartości mniejsze niż ta liczba. Mówiąc bardziej ogólnie, ppercentyl jest liczbą n dla którego p% danych jest mniejsze niż n.
Ciągłe zmienne losowe
Chociaż statystyki porządkowe mediany, pierwszego kwartylu i trzeciego kwartylu są zwykle wprowadzane w z dyskretnym zestawem danych, statystyki te można również zdefiniować dla ciągłego losowego zmienna. Ponieważ pracujemy z ciągłą dystrybucją, używamy całki. The ppercentyl jest liczbą n takie, że:
∫-₶nfa ( x ) dx = p/100.
Tutaj fa ( x ) to funkcja gęstości prawdopodobieństwa. W ten sposób możemy uzyskać dowolny percentyl dla ciągły dystrybucja.
Kwantyle
Dalszym uogólnieniem jest zauważyć, że nasze statystyki zamówień dzielą dystrybucję, z którą współpracujemy. Mediana dzieli zbiór danych na pół, a mediana lub 50-ty percentyl rozkładu ciągłego dzieli rozkład na pół pod względem powierzchni. Pierwszy kwartyl, mediana i trzeci kwartyl podziel nasze dane na cztery części z taką samą liczbą w każdym. Możemy użyć powyższej całki, aby uzyskać 25., 50. i 75. percentyl, i podzielić ciągły rozkład na cztery części o równej powierzchni.
Możemy uogólnić tę procedurę. Pytanie, od którego możemy zacząć, ma naturalną liczbę n, w jaki sposób możemy podzielić rozkład zmiennej na n równej wielkości kawałki? To przemawia bezpośrednio do idei kwantyli.
The n kwantyle dla zestawu danych można znaleźć w przybliżeniu poprzez uszeregowanie danych w kolejności, a następnie podzielenie tego rankingu n - 1 równomiernie rozmieszczone punkty na interwale.
Jeśli mamy funkcję gęstości prawdopodobieństwa dla ciągłej zmiennej losowej, używamy powyższej całki do znalezienia kwantyli. Dla n kwantyle, chcemy:
- Pierwszy, który ma 1 /n obszaru dystrybucji po jego lewej stronie.
- Drugi ma 2 /n obszaru dystrybucji po jego lewej stronie.
- The rto mieć r/n obszaru dystrybucji po jego lewej stronie.
- Ostatni mieć (n - 1)/n obszaru dystrybucji po jego lewej stronie.
Widzimy to dla dowolnej liczby naturalnej n, n kwantyle odpowiadają 100r/npercentyle, gdzie r może być dowolną liczbą naturalną od 1 do n - 1.
Wspólne kwantyle
Pewne rodzaje kwantyli są używane wystarczająco często, aby mieć określone nazwy. Poniżej znajduje się ich lista:
- 2 kwantyl nazywany jest medianą
- 3 kwantyle nazywane są terciles
- 4 kwantyle nazywane są kwartylami
- 5 kwantyli nazywa się kwintylami
- 6 kwantyli nazywa się sekstylami
- 7 kwantyli nazywa się gadów
- 8 kwantyli nazywa się oktylami
- 10 kwantyli nazywa się decylami
- 12 kwantyli nazywa się duodeciles
- 20 kwantyli nazywa się czujnikami
- 100 kwantyli nazywa się percentylami
- 1000 kwantyli nazywa się permillami
Oczywiście istnieją inne kwantyle poza tymi z powyższej listy. Wielokrotnie zastosowany konkretny kwantyl odpowiada wielkości próbki z ciągłego dystrybucja.
Wykorzystanie kwantyli
Oprócz określenia pozycji zestawu danych kwantyle są pomocne na inne sposoby. Załóżmy, że mamy prostą próbę losową z populacji, a rozkład populacji nie jest znany. Aby pomóc ustalić, czy model, taki jak rozkład normalny czy rozkład Weibulla, dobrze pasuje do populacji, z której pobrano próbki, możemy przyjrzeć się kwantylom naszych danych i modelu.
Dopasowując kwantyle z naszych przykładowych danych do kwantyli z określonego rozkład prawdopodobieństwa, wynikiem jest zbiór sparowanych danych. Rysujemy te dane na wykresie rozrzutu, znanym jako wykres kwantylowo-kwantylowy lub wykres q-q. Jeśli wynikowy wykres rozrzutu jest z grubsza liniowy, model dobrze pasuje do naszych danych.