Jak korzystać z analizy skupień w badaniach nauk społecznych

Analiza skupień jest techniką statystyczną stosowaną do identyfikacji, w jaki sposób różne jednostki - takie jak ludzie, grupy lub społeczeństwa - mogą być grupowane ze względu na wspólne cechy. Jest to również narzędzie do analizy danych eksploracyjnych, które ma na celu sortowanie różnych obiektów w grupy w taki sposób, że gdy należą do tej samej grupy, mają maksymalny stopień asocjacji, a gdy nie należą do tej samej grupy, ich stopień asocjacji wynosi minimalny. W przeciwieństwie do niektórych innych techniki statystyczne, struktury odkryte przez analizę skupień nie wymagają wyjaśnienia ani interpretacji - odkrywa strukturę danych bez wyjaśnienia, dlaczego one istnieją.

Co to jest klastrowanie?

Grupowanie istnieje w prawie każdym aspekcie naszego codziennego życia. Weźmy na przykład przedmioty w sklepie spożywczym. Różne rodzaje przedmiotów są zawsze wyświetlane w tych samych lub w pobliżu lokalizacjach - mięso, warzywa, napoje gazowane, płatki zbożowe, produkty papierowe itp. Naukowcy często chcą zrobić to samo z danymi i grupować obiekty lub podmioty w klastry, które mają sens.

instagram viewer

Aby wziąć przykład z nauk społecznych, załóżmy, że patrzymy na kraje i chcemy je zgrupować w klastry na podstawie takich cech, jak: Podział pracy, wojsko, technologia lub wykształcona populacja. Przekonalibyśmy się, że Wielka Brytania, Japonia, Francja, Niemcy i Stany Zjednoczone mają podobne cechy i zostaną zgrupowane razem. Uganda, Nikaragua i Pakistan również zostaną zgrupowane w innym klastrze, ponieważ mają one inny zestaw cech, w tym niski poziom zamożności, prostsze podziały pracy, stosunkowo niestabilne i niedemokratyczne instytucje polityczne oraz niski poziom technologiczny rozwój.

Analiza skupień jest zwykle stosowana w fazie eksploracyjnej badań, gdy badacz ich nie ma z góry założone hipotezy. Zwykle nie jest to jedyna stosowana metoda statystyczna, ale raczej jest wykonywana na wczesnych etapach projektu, aby pomóc w przeprowadzeniu reszty analizy. Z tego powodu badanie istotności zwykle nie jest ani istotne, ani właściwe.

Istnieje kilka różnych rodzajów analizy skupień. Dwa najczęściej stosowane to grupowanie w kształcie litery K i klastrowanie hierarchiczne.

K-oznacza Clustering

K-średnie grupowanie traktuje obserwacje danych jako obiekty posiadające lokalizacje i odległości od siebie (zauważ, że odległości stosowane w grupowaniu często nie reprezentują odległości przestrzennych). Dzieli obiekty na K wzajemnie wykluczających się klastrów, dzięki czemu obiekty w każdym klastrze są takie same blisko siebie, jak to możliwe, a jednocześnie jak najdalej od obiektów w innych skupiskach. Każdy klaster jest następnie charakteryzowany przez swój punkt środkowy lub środkowy.

Hierarchiczne grupowanie

Grupowanie hierarchiczne jest sposobem na badanie grupowania danych jednocześnie w różnych skalach i odległościach. Robi to, tworząc drzewo klastrów o różnych poziomach. W przeciwieństwie do K-klastrowania, drzewo nie jest pojedynczym zestawem klastrów. Drzewo jest raczej hierarchią wielopoziomową, w której klastry na jednym poziomie są łączone jako klastry na następnym wyższym poziomie. Używany algorytm rozpoczyna się od każdego przypadku lub zmiennej w oddzielnym klastrze, a następnie łączy klastry, aż zostanie tylko jeden. Pozwala to badaczowi zdecydować, jaki poziom grupowania jest najbardziej odpowiedni dla jego badań.

Przeprowadzanie analizy skupień

Większość programy do statystyki potrafi przeprowadzić analizę skupień. W SPSS wybierz analizować z menu klasyfikować i analiza skupień. W SAS, klaster proc można użyć funkcji.

aktualizowany przez Dr Nicki Lisa Cole

instagram story viewer