Istnieje wiele statystyk opisowych. Liczby takie jak średnia, medianatryb skośnośćkurtoza, odchylenie standardowe, pierwszy kwartyl i trzeci kwartyl, żeby wymienić tylko kilka, każdy z nas powie coś o naszych danych. Zamiast na nie patrzeć opisowe statystyki indywidualnie, czasami łącząc je, daje nam pełny obraz. Mając to na uwadze, pięciocyfrowe podsumowanie jest wygodnym sposobem na połączenie pięciu statystyk opisowych.
Które pięć liczb?
Oczywiste jest, że w naszym podsumowaniu powinno być pięć liczb, ale które pięć? Wybrane liczby mają pomóc nam poznać centrum naszych danych, a także sposób rozmieszczenia punktów danych. Mając to na uwadze, pięciocyfrowe streszczenie składa się z następujących elementów:
- Minimum - jest to najmniejsza wartość w naszym zbiorze danych.
- Pierwszy kwartyl - liczba ta jest oznaczona Q1 a 25% naszych danych znajduje się poniżej pierwszego kwartylu.
- Mediana - jest to punkt środkowy danych. 50% wszystkich danych jest poniżej mediany.
- Trzeci kwartyl - liczba ta jest oznaczona Q3 a 75% naszych danych znajduje się poniżej trzeciego kwartylu.
- Maksimum - jest to największa wartość w naszym zbiorze danych.
Średnią i odchylenie standardowe można również wykorzystać razem do przekazania centrum i rozprzestrzeniania się zestawu danych. Jednak obie te statystyki są podatne na wartości odstające. Wartości odstające nie mają tak dużego wpływu na medianę, pierwszy kwartyl i trzeci kwartyl.
Przykład
Biorąc pod uwagę następujący zestaw danych, przedstawimy podsumowanie pięciu liczb:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7, 8, 11, 12, 15, 15, 15, 17, 17, 18, 20
Zestaw danych zawiera w sumie dwadzieścia punktów. Mediana jest zatem średnią dziesiątej i jedenastej wartości danych lub:
(7 + 8)/2 = 7.5.
Mediana dolnej połowy danych to pierwszy kwartyl. Dolna połowa to:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7
W ten sposób obliczamyQ1= (4 + 6)/2 = 5.
Mediana górnej połowy oryginalnego zestawu danych to trzeci kwartyl. Musimy znaleźć medianę:
8, 11, 12, 15, 15, 15, 17, 17, 18, 20
W ten sposób obliczamyQ3= (15 + 15)/2 = 15.
Łączymy wszystkie powyższe wyniki razem i informujemy, że pięciocyfrowe podsumowanie powyższego zestawu danych to 1, 5, 7,5, 12, 20.
Reprezentacja graficzna
Pięć zestawień liczbowych można porównać ze sobą. Przekonamy się, że dwa zestawy z podobnymi średnimi i standardowymi odchyleniami mogą mieć bardzo różne pięć podsumowań liczbowych. Aby łatwo porównać dwa pięć podsumowań liczb na pierwszy rzut oka, możemy użyć fabułalub wykres pudełka i wąsów.