Czyszczenie danych jest kluczową częścią analizy danych, szczególnie w przypadku gromadzenia własnych danych ilościowych. Po zebraniu danych należy wprowadzić je do programu komputerowego, takiego jak SAS, SPSS lub Excel. Podczas tego procesu, niezależnie od tego, czy odbywa się to ręcznie, czy skaner komputerowy, będą występować błędy. Bez względu na to, jak starannie dane zostały wprowadzone, błędy są nieuniknione. Może to oznaczać nieprawidłowe kodowanie, nieprawidłowy odczyt zapisanych kodów, nieprawidłowe wykrywanie poczerniałych znaków, brakujące dane i tak dalej. Czyszczenie danych to proces wykrywania i korygowania tych błędów kodowania.
Istnieją dwa rodzaje czyszczenia danych, które należy wykonać dla zbiorów danych. Możliwe są czyszczenie kodu i czyszczenie awaryjne. Oba są kluczowe dla procesu analizy danych, ponieważ jeśli zostaną zignorowane, prawie zawsze będziesz wprowadzać w błąd wyniki badań.
Czyszczenie kodu możliwego
Każda dana zmienna będzie miała określony zestaw wyborów odpowiedzi i kodów pasujących do każdego wyboru odpowiedzi. Na przykład zmienna
płeć będzie miał trzy opcje odpowiedzi i kody dla każdego: 1 dla mężczyzn, 2 dla kobiet i 0 dla braku odpowiedzi. Jeśli masz respondenta zakodowanego jako 6 dla tej zmiennej, jasne jest, że popełniono błąd, ponieważ nie jest to możliwy kod odpowiedzi. Czyszczenie ewentualnego kodu to proces sprawdzania, czy w pliku danych pojawiają się tylko kody przypisane do opcji odpowiedzi dla każdego pytania (możliwe kody).Niektóre programy komputerowe i pakiety oprogramowania statystycznego dostępne do wprowadzania danych sprawdzają tego typu błędy podczas wprowadzania danych. Tutaj użytkownik określa możliwe kody dla każdego pytania przed wprowadzeniem danych. Następnie, jeśli wprowadzona zostanie liczba spoza uprzednio zdefiniowanych możliwości, pojawi się komunikat o błędzie. Na przykład, jeśli użytkownik spróbuje wprowadzić 6 dla płci, komputer może wydać sygnał dźwiękowy i odrzucić kod. Inne programy komputerowe są zaprojektowane do testowania nielegalnych kodów w kompletnych plikach danych. Oznacza to, że jeśli nie zostały one sprawdzone podczas procesu wprowadzania danych, jak opisano powyżej, istnieją sposoby sprawdzenia plików pod kątem błędów kodowania po zakończeniu wprowadzania danych.
Jeśli nie korzystasz z programu komputerowego, który sprawdza błędy kodowania podczas wprowadzania danych, możesz zlokalizować niektóre błędy, po prostu badając rozkład odpowiedzi na każdy element w danych zestaw. Na przykład możesz wygenerować tabelę częstotliwości dla zmiennej płeć i tutaj zobaczysz źle wpisaną liczbę 6. Następnie możesz wyszukać ten wpis w pliku danych i go poprawić.
Czyszczenie awaryjne
Drugi typ dane czyszczenie nazywa się czyszczeniem awaryjnym i jest nieco bardziej skomplikowane niż czyszczenie kodu możliwego. Logiczna struktura danych może nakładać pewne ograniczenia na odpowiedzi niektórych respondentów lub na niektóre zmienne. Czyszczenie awaryjne to proces sprawdzania, czy tylko te przypadki, które powinny zawierać dane dotyczące konkretnej zmiennej, faktycznie mają takie dane. Załóżmy na przykład, że masz kwestionariusz, w którym pytasz respondentów, ile razy byli w ciąży. Wszystkie badane kobiety powinny mieć zakodowaną odpowiedź w danych. Samce powinny jednak pozostać puste lub mieć specjalny kod na wypadek braku odpowiedzi. Na przykład, jeśli którykolwiek z mężczyzn w danych jest zakodowany jako mający 3 ciąże, wiesz, że wystąpił błąd i należy go poprawić.
Bibliografia
Babbie, E. (2001). The Practice of Social Research: 9. edycja. Belmont, Kalifornia: Wadsworth Thomson.