Klasy histogramu: Informacje i przykłady

Naprawdę nie ma reguły dotyczącej liczby klas. Jest kilka rzeczy do rozważenia na temat liczby klas. Gdyby istniała tylko jedna klasa, wszystkie dane należałyby do tej klasy. Nasz histogram byłby po prostu pojedynczym prostokątem o wysokości podanej przez liczbę elementów w naszym zbiorze danych. To nie byłoby bardzo pomocne lub przydatny histogram.

Z drugiej strony moglibyśmy mieć wiele klas. Spowodowałoby to powstanie wielu pasków, z których żaden prawdopodobnie nie byłby bardzo wysoki. Bardzo trudno byłoby określić jakiekolwiek cechy odróżniające od danych za pomocą tego rodzaju histogramu.

Aby uchronić się przed tymi dwiema skrajnościami, stosujemy ogólną zasadę określania liczby klas dla histogramu. Kiedy mamy stosunkowo niewielki zestaw danych, zwykle używamy tylko około pięciu klas. Jeśli zestaw danych jest stosunkowo duży, używamy około 20 klas.

Ponownie, należy podkreślić, że jest to ogólna zasada, a nie bezwzględna zasada statystyczna. Mogą istnieć dobre powody, aby mieć inną liczbę klas danych. Przykład tego zobaczymy poniżej.

instagram viewer

Zanim przeanalizujemy kilka przykładów, zobaczymy, jak ustalić, jakie faktycznie są klasy. Ten proces rozpoczynamy od znalezienia zasięg naszych danych. Innymi słowy, odejmujemy najniższą wartość danych od najwyższej wartości danych.

Gdy zestaw danych jest stosunkowo mały, dzielimy zakres przez pięć. Iloraz to szerokość klas naszego histogramu. Prawdopodobnie będziemy potrzebować zaokrąglić w tym procesie, co oznacza, że ​​całkowita liczba klas może nie być równa pięciu.

Gdy zestaw danych jest stosunkowo duży, dzielimy zakres przez 20. Tak jak poprzednio, ten problem podziału daje nam szerokość klas dla naszego histogramu. Ponadto, jak widzieliśmy wcześniej, nasze zaokrąglanie może spowodować nieco więcej lub nieco mniej niż 20 klas.

W przypadku dużego lub małego zestawu danych pierwszą klasę rozpoczynamy od punktu nieco mniejszego niż najmniejsza wartość danych. Musimy to zrobić w taki sposób, aby pierwsza wartość danych mieściła się w pierwszej klasie. Inne kolejne klasy są określone przez szerokość, która została ustawiona, kiedy podzieliliśmy zakres. Wiemy, że jesteśmy w ostatniej klasie, gdy nasza najwyższa wartość danych jest zawarta w tej klasie.

Na przykład określimy odpowiednią szerokość klasy i klasy dla zestawu danych: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Widzimy, że w naszym zestawie znajduje się 27 punktów danych. Jest to stosunkowo niewielki zestaw, więc podzielimy zasięg przez pięć. Zakres wynosi 19,2 - 1,1 = 18,1. Dzielimy 18,1 / 5 = 3,62. Oznacza to, że odpowiednia byłaby szerokość klasy 4. Nasza najmniejsza wartość danych wynosi 1,1, więc pierwszą klasę rozpoczynamy od punktu mniejszego niż ten. Ponieważ nasze dane składają się z liczb dodatnich, sensowne byłoby, aby pierwsza klasa przechodziła od 0 do 4.

Na przykład, załóżmy, że istnieje test wielokrotnego wyboru z 35 pytaniami, a 1000 uczniów w szkole średniej przystępuje do testu. Chcemy utworzyć histogram pokazujący liczbę uczniów, którzy osiągnęli określone wyniki w teście. Widzimy, że 35/5 = 7 i że 35/20 = 1,75. Pomimo naszej ogólnej zasady, która daje nam wybór klas szerokości 2 lub 7 do zastosowania w naszym histogramie, lepiej mieć klasy szerokości 1. Zajęcia te odpowiadałyby każdemu pytaniu, na które student poprawnie odpowiedział na teście. Pierwszy z nich byłby wyśrodkowany na 0, a ostatni na 35.