Wartości odstające to wartości danych, które znacznie różnią się od większości zestawu danych. Wartości te nie mieszczą się w ogólnym trendzie występującym w danych. Dokładne sprawdzenie zestawu danych w celu znalezienia wartości odstających powoduje pewne trudności. Chociaż łatwo jest zauważyć, być może za pomocą wykresu macierzystego, że niektóre wartości różnią się od reszty danych, o ile inną wartość należy uznać za wartość odstającą? Przyjrzymy się konkretnemu pomiarowi, który da nam obiektywny standard tego, co stanowi wartość odstającą.
Zakres międzykwartylowy
The zakres międzykwartylowy możemy użyć do ustalenia, czy skrajna wartość jest rzeczywiście wartością odstającą. Zakres międzykwartylowy oparty jest na części pięć liczb zbioru danych, a mianowicie pierwszy kwartyl i trzeci kwartyl. Obliczanie zakresu międzykwartylowego obejmuje jedną operację arytmetyczną. Wszystko, co musimy zrobić, aby znaleźć zakres międzykwartylowy, to odjąć pierwszy kwartyl od trzeciego kwartylu. Wynikowa różnica mówi nam, jak rozkłada się środkowa połowa naszych danych.
Określanie wartości odstających
Pomnożenie zakresu międzykwartylowego (IQR) przez 1,5 pozwoli nam ustalić, czy określona wartość jest wartością odstającą. Jeśli odejmiemy 1,5 x IQR od pierwszego kwartylu, wszelkie wartości danych mniejsze niż ta liczba zostaną uznane za wartości odstające. Podobnie, jeśli dodamy 1,5 x IQR do trzeciego kwartylu, wszelkie wartości danych większe niż ta liczba są uznawane za wartości odstające.
Silne wartości odstające
Niektóre wartości odstające wykazują skrajne odchylenie od reszty zbioru danych. W takich przypadkach możemy wykonać powyższe kroki, zmieniając tylko liczbę, przez którą mnożymy IQR, i definiujemy pewien typ wartości odstających. Jeśli odejmiemy 3,0 x IQR od pierwszego kwartylu, każdy punkt poniżej tej liczby jest nazywany silną wartością odstającą. W ten sam sposób dodanie 3,0 x IQR do trzeciego kwartylu pozwala nam zdefiniować silne wartości odstające, patrząc na punkty, które są większe niż ta liczba.
Słabe wartości odstające
Oprócz silnych wartości odstających istnieje jeszcze jedna kategoria wartości odstających. Jeśli wartość danych jest wartością odstającą, ale nie silną, to mówimy, że wartość jest słabą wartością odstającą. Przyjrzymy się tym koncepcjom, analizując kilka przykładów.
Przykład 1
Najpierw załóżmy, że mamy zestaw danych {1, 2, 2, 3, 3, 4, 5, 5, 9}. Liczba 9 z pewnością wygląda na odstającą. Jest znacznie większa niż jakakolwiek inna wartość z reszty zestawu. Aby obiektywnie ustalić, czy 9 jest wartością odstającą, stosujemy powyższe metody. Pierwszy kwartyl to 2, a trzeci kwartyl to 5, co oznacza, że zakres międzykwartylowy wynosi 3. Mnożymy przedział międzykwartylowy przez 1,5, uzyskując 4,5, a następnie dodajemy tę liczbę do trzeciego kwartylu. Wynik 9,5 jest większy niż dowolna z naszych wartości danych. Dlatego nie ma wartości odstających.
Przykład 2
Teraz patrzymy na ten sam zestaw danych jak poprzednio, z tym wyjątkiem, że największa wartość to 10 zamiast 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Pierwszy kwartyl, trzeci kwartyl i przedział międzykwartylowy są identyczne jak w przykładzie 1. Gdy dodamy 1,5 x IQR = 4,5 do trzeciego kwartylu, suma wynosi 9,5. Ponieważ 10 jest większe niż 9,5, uważa się za wartość odstającą.
Czy 10 jest silną czy słabą wartością odstającą? W tym celu musimy przyjrzeć się 3 x IQR = 9. Gdy dodamy 9 do trzeciego kwartylu, otrzymamy sumę 14. Ponieważ 10 nie jest większe niż 14, nie jest to silna wartość odstająca. Stwierdzamy zatem, że 10 jest słabą wartością odstającą.
Powody identyfikowania wartości odstających
Zawsze musimy szukać wartości odstających. Czasami są one spowodowane błędem. Inne wartości odstające od czasu wskazują na obecność nieznanego wcześniej zjawiska. Innym powodem, dla którego musimy uważnie sprawdzać wartości odstające, są wszystkie opisowe statystyki wrażliwe na wartości odstające. Znaczy odchylenie standardowe i współczynnik korelacji dla sparowane dane to tylko kilka tego rodzaju statystyk.