Histogram to rodzaj wykresu, który ma szerokie zastosowanie w statystyce. Histogramy zapewniają wizualną interpretację dane liczbowe poprzez wskazanie liczby punktów danych, które mieszczą się w zakresie wartości. Te zakresy wartości nazywane są klasami lub pojemnikami. Częstotliwość danych przypadających na każdą klasę jest przedstawiona za pomocą paska. Im wyższy pasek, tym większa częstotliwość wartości danych w tym przedziale.
Histogramy vs. Wykresy słupkowe
Na pierwszy rzut oka histogramy wyglądają bardzo podobnie do wykresy słupkowe. Oba wykresy wykorzystują pionowe słupki do przedstawienia danych. Wysokość paska odpowiada częstotliwość względna ilości danych w klasie. Im wyższy pasek, tym wyższa częstotliwość danych. Im niższy pasek, tym niższa częstotliwość danych. Ale wygląd może być mylący. To tutaj kończą się podobieństwa między dwoma rodzajami grafów.
Powód, dla którego tego rodzaju wykresy są różne, ma związek z poziom pomiaru danych. Z jednej strony wykresy słupkowe są wykorzystywane do danych na nominalnym poziomie pomiaru.
Wykresy słupkowe zmierzyć częstotliwość danych kategorycznych, a klasy dla wykresu słupkowego są tymi kategoriami. Z drugiej strony histogramy są używane dla danych, które są co najmniej na poziom porządkowy pomiaru. Klasy histogramu to zakresy wartości.Kolejna kluczowa różnica między wykresami słupkowymi a histogramami dotyczy kolejności słupków. Na wykresie słupkowym powszechną praktyką jest przestawianie słupków w kolejności malejącej wysokości. Jednak słupków histogramu nie można zmienić. Muszą być wyświetlane w kolejności występowania klas.
Przykład histogramu
Powyższy schemat pokazuje histogram. Załóżmy, że cztery monety są obrócone, a wyniki są rejestrowane. Zastosowanie odpowiedniego dwumianowa tabela dystrybucji lub proste obliczenia ze wzorem dwumianowym pokazują prawdopodobieństwo, że żadna głowa nie pokazuje 1/16, prawdopodobieństwo, że jedna głowa pokazuje 4/16. Prawdopodobieństwo dwóch głów wynosi 6/16. Prawdopodobieństwo trzech głów wynosi 4/16. Prawdopodobieństwo czterech głów wynosi 1/16.
Konstruujemy łącznie pięć klas, każda o szerokości jedna. Klasy te odpowiadają możliwej liczbie głowic: zero, jeden, dwa, trzy lub cztery. Nad każdą klasą rysujemy pionowy pasek lub prostokąt. Wysokości tych słupków odpowiadają prawdopodobieństwom wymienionym w naszym eksperymencie prawdopodobieństwa rzutu czterema monetami i liczenia głów.
Histogramy i prawdopodobieństwa
Powyższy przykład nie tylko pokazuje budowę histogramu, ale także to pokazuje dyskretne rozkłady prawdopodobieństwa można przedstawić za pomocą histogramu. Rzeczywiście, dyskretny rozkład prawdopodobieństwa może być reprezentowany przez histogram.
Aby zbudować histogram reprezentujący rozkład prawdopodobieństwa, zaczynamy od wyboru klas. Takie powinny być wyniki eksperymentu prawdopodobieństwa. Szerokość każdej z tych klas powinna wynosić jedną jednostkę. Wysokości słupków histogramu są prawdopodobieństwami dla każdego z wyników. Przy tak skonstruowanym histogramie obszary słupków są również prawdopodobieństwami.
Ponieważ tego rodzaju histogram daje nam prawdopodobieństwa, podlega on kilku warunkom. Jednym z warunków jest to, że dla skali, która daje nam wysokość danego słupka histogramu, można stosować tylko liczby nieujemne. Drugim warunkiem jest to, że ponieważ prawdopodobieństwo jest równe powierzchni, wszystkie pola prętów muszą się sumować do jednego, co odpowiada 100%.
Histogramy i inne zastosowania
Słupki na histogramie nie muszą być prawdopodobieństwami. Histogramy są pomocne w obszarach innych niż prawdopodobieństwo. Za każdym razem, gdy chcemy porównać częstotliwość występowania danych ilościowych, histogram można wykorzystać do zobrazowania naszego zestawu danych.