Próbkowanie statystyczne można to zrobić na wiele różnych sposobów. Oprócz rodzaju metody próbkowania, z której korzystamy, istnieje inne pytanie dotyczące tego, co konkretnie dzieje się z osobą, którą wybraliśmy losowo. To pytanie powstaje, gdy próbkowanie jest następujące: „Po wybraniu osoby i zarejestrowaniu pomiaru badanego atrybutu, co robimy z tą osobą?”
Istnieją dwie opcje:
- Możemy zastąpić osobę z powrotem do puli, z której próbkujemy.
- Możemy zdecydować się nie zastępować osoby.
Możemy bardzo łatwo zauważyć, że prowadzą one do dwóch różnych sytuacji. W pierwszej opcji wymiana pozostawia otwartą możliwość losowego wyboru osoby po raz drugi. W przypadku drugiej opcji, jeśli pracujemy bez wymiany, nie można dwukrotnie wybrać tej samej osoby. Zobaczymy, że ta różnica wpłynie na obliczenia prawdopodobieństw związanych z tymi próbkami.
Wpływ na prawdopodobieństwa
Aby zobaczyć, jak radzimy sobie z zamianą, wpływa na obliczanie prawdopodobieństw, rozważ poniższe przykładowe pytanie. Jakie jest prawdopodobieństwo wylosowania dwóch asów z standardowa talia kart?
To pytanie jest dwuznaczne. Co się stanie, gdy wyciągniemy pierwszą kartę? Czy odkładamy go z powrotem na pokład, czy też pomijamy?
Zaczynamy od obliczenia prawdopodobieństwa z zamianą. W sumie są cztery asy i 52 karty, więc prawdopodobieństwo wylosowania jednego asa wynosi 4/52. Jeśli wymienimy tę kartę i ponownie wyciągniemy, wówczas prawdopodobieństwo wynosi ponownie 4/52. Te zdarzenia są niezależne, więc mnożymy prawdopodobieństwa (4/52) x (4/52) = 1/169, czyli około 0,592%.
Teraz porównamy to z tą samą sytuacją, z tym wyjątkiem, że nie wymieniamy kart. Prawdopodobieństwo losowania asa przy pierwszym losowaniu nadal wynosi 4/52. W przypadku drugiej karty zakładamy, że as został już wylosowany. Musimy teraz obliczyć prawdopodobieństwo warunkowe. Innymi słowy, musimy wiedzieć, jakie jest prawdopodobieństwo wylosowania drugiego asa, biorąc pod uwagę, że pierwsza karta to także as.
Z 51 kart pozostały trzy asy. Prawdopodobieństwo warunkowe drugiego asa po wylosowaniu asa wynosi 3/51. Prawdopodobieństwo wylosowania dwóch asów bez zamiany wynosi (4/52) x (3/51) = 1/221, czyli około 0,425%.
Widzimy bezpośrednio z powyższego problemu, że to, co zdecydujemy się na wymianę, ma wpływ na wartości prawdopodobieństw. Może znacznie zmienić te wartości.
Rozmiary populacji
Istnieją sytuacje, w których pobieranie próbek z wymianą lub bez niej nie zmienia zasadniczo żadnych prawdopodobieństw. Załóżmy, że losowo wybieramy dwie osoby z miasta o populacji 50 000, z czego 30 000 to kobiety.
Jeśli spróbujemy z wymianą, prawdopodobieństwo wyboru kobiety przy pierwszym wyborze daje 30000/50000 = 60%. Prawdopodobieństwo kobiety w drugiej selekcji nadal wynosi 60%. Prawdopodobieństwo, że obie osoby będą kobietami, wynosi 0,6 x 0,6 = 0,36.
Jeśli próbkujemy bez wymiany, pierwsze prawdopodobieństwo pozostaje nienaruszone. Drugie prawdopodobieństwo wynosi teraz 29999/49999 = 0,5999919998..., co jest wyjątkowo blisko 60%. Prawdopodobieństwo, że oboje są kobietami, wynosi 0,6 x 0,5999919998 = 0,359995.
Prawdopodobieństwa są technicznie różne, jednak są wystarczająco blisko, aby być prawie nie do odróżnienia. Z tego powodu wiele razy, mimo że pobieramy próbki bez zamiany, traktujemy wybór każdej osoby tak, jakby była ona niezależna od innych osób w próbie.
Inne aplikacje
Istnieją inne przypadki, w których musimy zastanowić się, czy próbkować z wymianą czy bez. Na przykład jest to ładowanie. Ta technika statystyczna objęta jest techniką ponownego próbkowania.
W bootstrapie zaczynamy od statystycznej próby populacji. Następnie używamy oprogramowania komputerowego do obliczania próbek bootstrap. Innymi słowy, komputer dokonuje ponownej próby z wymianą z próbki początkowej.