Jak znaleźć ogrodzenie wewnętrzne i zewnętrzne

Jedną z cech zestawu danych, którą należy ustalić, jest to, czy zawiera on wartości odstające. Wartości odstające są intuicyjnie postrzegane jako wartości w naszym zbiorze danych, które znacznie różnią się od większości pozostałych danych. Oczywiście takie rozumienie wartości odstających jest niejednoznaczne. Aby uznać za wartość odstającą, o ile wartość powinna różnić się od reszty danych? Czy to, co jeden badacz nazywa wartością odstającą, będzie pasować do wartości drugiej? Aby zapewnić pewną spójność i pomiar ilościowy w celu ustalenia wartości odstających, stosujemy ogrodzenia wewnętrzne i zewnętrzne.

Aby znaleźć wewnętrzne i zewnętrzne ogrodzenia zestawu danych, najpierw potrzebujemy kilku innych opisowe statystyki. Zaczniemy od obliczenia kwartyli. Doprowadzi to do zasięgu międzykwartylowego. Wreszcie, po tych obliczeniach będziemy w stanie określić ogrodzenie wewnętrzne i zewnętrzne.

Kwartyle

The pierwszy i trzeci kwartyl są częścią pięć liczb dowolnego zestawu danych ilościowych. Zaczynamy od znalezienia mediany lub punktu środkowego danych po tym, jak wszystkie wartości są wymienione w porządku rosnącym. Wartości mniejsze niż mediana odpowiadające mniej więcej połowie danych. Znajdujemy medianę tej połowy zbioru danych i jest to pierwszy kwartyl.

instagram viewer

W podobny sposób rozważamy teraz górną połowę zestawu danych. Jeśli znajdziemy medianę dla tej połowy danych, mamy trzecie kwartyle. Kwartyle te mają swoją nazwę od tego, że dzielą zestaw danych na cztery równe części lub ćwiartki. Innymi słowy, około 25% wszystkich wartości danych jest mniejszych niż pierwszy kwartyl. W podobny sposób około 75% wartości danych jest mniejszych niż trzeci kwartyl.

Zakres międzykwartylowy

Następnie musimy znaleźć zakres międzykwartylowy (IQR). Łatwiej to obliczyć niż pierwszy kwartyl q1 i trzeci kwartyl q3. Wszystko, co musimy zrobić, to wziąć pod uwagę różnicę między tymi dwoma kwartylami. To daje nam wzór:

IQR = Q3 - Q1

IQR mówi nam, jak rozkłada się środkowa połowa naszego zestawu danych.

Znajdź wewnętrzne ogrodzenia

Teraz możemy znaleźć wewnętrzne ogrodzenia. Zaczynamy od IQR i mnożymy tę liczbę przez 1,5. Następnie odejmujemy tę liczbę od pierwszego kwartylu. Dodajemy również tę liczbę do trzeciego kwartylu. Te dwie liczby tworzą nasz wewnętrzny płot.

Znajdź ogrodzenia zewnętrzne

W przypadku zewnętrznych ogrodzeń zaczynamy od IQR i mnożymy tę liczbę przez 3. Następnie odejmujemy tę liczbę od pierwszego kwartylu i dodajemy do trzeciego kwartylu. Te dwie liczby są naszymi zewnętrznymi płotami.

Wykrywanie wartości odstających

Wykrywanie wartości odstające teraz staje się tak proste, jak określenie, gdzie leżą wartości danych w odniesieniu do naszych wewnętrznych i zewnętrznych ogrodzeń. Jeśli pojedyncza wartość danych jest bardziej ekstremalna niż którykolwiek z naszych zewnętrznych ogrodzeń, jest to wartość odstająca i czasami jest określana jako silna wartość odstająca. Jeśli nasza wartość danych znajduje się między odpowiadającym ogrodzeniem wewnętrznym i zewnętrznym, to jest to wartość podejrzana lub odstająca. Zobaczymy, jak to działa na poniższym przykładzie.

Przykład

Załóżmy, że obliczyliśmy pierwszy i trzeci kwartyl naszych danych i znaleźliśmy te wartości odpowiednio dla 50 i 60. Przedział międzykwartylowy IQR = 60-50 = 10. Następnie widzimy, że 1,5 x IQR = 15. Oznacza to, że wewnętrzne ogrodzenia mają 50 - 15 = 35 i 60 + 15 = 75. To 1,5 x IQR mniej niż pierwszy kwartyl i więcej niż trzeci kwartyl.

Teraz obliczamy 3 x IQR i widzimy, że jest to 3 x 10 = 30. Zewnętrzne ogrodzenia są 3 x IQR bardziej ekstremalne niż pierwszy i trzeci kwartyl. Oznacza to, że zewnętrzne ogrodzenia mają 50-30 = 20 i 60 + 30 = 90.

Wszelkie wartości danych mniejsze niż 20 lub większe niż 90 są uważane za wartości odstające. Wszelkie wartości danych między 29 a 35 lub między 75 a 90 są podejrzewanymi wartościami odstającymi.