Mój pracodawca prowadzi obecnie ankietę dla całej firmy na temat stosunku do biura, tj. Sentymentu. W przeszłości otworzyli ankietę dla wszystkich obszarów działalności (Załóżmy 10 bardzo różnych działów) i wszystkich pracowników w nich zatrudnionych (Załóżmy łącznie 1000 pracowników w całej firmie) Liczba pracowników w każdym dziale nie jest równa i jeden konkretny dział to prawdopodobnie 50% całkowitej populacji organizacji.
W tym roku badanie jest otwarte tylko dla 25% całkowitej bazy pracowników, a wybór jest „losowy”
Dlatego mam dwa zapytania:
Jeśli jest to naprawdę losowy wybór całej bazy pracowników, jak to jest statystycznie ważna próba zakładająca, że wszyscy ci pracownicy odpowiedzieli?
Jeśli jest losowy na poziomie poszczególnych działów, np. 25% każdego działu, to w jaki sposób ważna próbka uwzględniająca jeden dział stanowi ponad 50% całej populacji.
Zakładałbym, że aby określić sentyment większości w firmie, potrzeba co najmniej 50% bazy pracowników w każdym dziale, aby zapewnić prawdziwy sentyment do czytania.
Aktualizacja : ankieta nie jest wymuszona. Nie można zagwarantować 100% odsetka odpowiedzi z wybranych 25%. Nie ma zachęt ani środków karnych, jeśli ankieta jest wypełniona lub nie.
źródło
1/sqrt(# responses)
. Na przykład przy 20 odpowiedziach+/- .468 * sigma
. Z 100 odpowiedziami będzie+/- .198 * sigma
. Z 1000 odpowiedziami będzie+/- .062 * sigma
.Odpowiedzi:
Pomyśl o ankietach w ogólnej populacji, powiedzmy w USA. Jeśli potrzebujemy 50% populacji do ustalenia opinii większości, potrzebowalibyśmy próbki około 160 milionów, co jest naprawdę wygórowane. Nawet 1% próby jest ekstremalne (około 3,2 miliona) i jest rzadko wykonywane. Ważna ankieta przeprowadzona w Stanach Zjednoczonych przez General Social Survey obejmuje próby od 1500 do prawie 3000. Próbka 25% sama w sobie nie stanowi problemu.
Pamiętaj, że ankieta nie jest wyborą ani referendum. Aby ta ostatnia była zgodna z prawem, każda uprawniona osoba musi mieć możliwość wypowiedzenia się. Celem ankiety jest uzyskanie dobrego oszacowania przeciętnej opinii, a można ją uzyskać losowo. Dlatego firma musi zdecydować, jaki jest cel ankiety: czy jest to sposób na wyrażenie opinii przez pracowników i uczestnictwo w firmie, czy też sposób na uzyskanie informacji przez menedżerów?
Oba projekty próbkowania zapewniają, że 25% pracowników jest pytanych. Ten ostatni zapewnia reprezentację mniejszego działu w ankiecie. Jeśli zależy Ci na standardowych błędach, powinieneś wziąć pod uwagę zagnieżdżoną naturę próbkowania, choć nie podejrzewam, że w tym przypadku będzie to miało duże znaczenie.
źródło
Według etymologii „ ankieta ” (
sur-
z „super”, jak w „z góry” i-vey
„z widoku”) oznacza uzyskanie przeglądu , a nie pełnego obrazu.Tak długo, jak 25% było naprawdę losowe i nie tzn. Samo-wybrane (opt-in), to całkiem spełnia definicję tego terminu. Jeśli ankieta jest opcjonalna, wówczas odpowiedzi będą reprezentatywne tylko dla tych, którzy czują potrzebę odpowiedzi. Wyobraź sobie na przykład restaurację, w której po posiłku można było wypełnić kartę informacyjną. Nawet jeśli większość klientów jest zadowolona, większość opinii będzie negatywna, ponieważ zadowoleni klienci nie widzą powodu, aby wyrazić opinię.
źródło
Kolejny punkt widzenia pochodzi z teorii projektowania eksperymentu.
Cztery czynniki wpływają na moc:
Zgodnie z zestawem założeń możesz scharakteryzować ankietę jako eksperyment i wykorzystać strukturę eksperymentu ( tutaj jest kilka przykładów). Istnieje wiele wykształconych przypuszczeń; jednak niedoskonały model może być lepszy niż żaden model.
źródło
Wyczuwam dwa pytania. Jeden dotyczy wielkości próby (25%, dlaczego nie większość), a drugi dotyczy techniki pobierania próbek (czy to naprawdę losowe, próbka 25% losowo w całej firmie, próbka 25% losowo w każdym dziale, czy zastosowanie innej dystrybucji).
1) Wielkość próby nie musi być większością. Wymagana wielkość próbki może wynosić od 0 do 100%, w zależności od wymaganej dokładności dla danego współczynnika ufności lub prawdopodobieństwa.
Nigdy nie uzyskuje się 100% pewności (również nie z podzbiorem 50% lub większym). Osiągnięcie tak wysokiej dokładności również nie jest celem pobierania próbek i szacowania.
Zobacz więcej na temat przykładowych rozmiarów: https://en.wikipedia.org/wiki/Sample_size_determination
Jeśli znasz prawo wielkich liczb, możesz mieć intuicyjny pomysł.
Rozkład średnich wszystkich możliwych podzbiorów (a twoja próbka będzie jednym z nich), stanie się mniejszy i bliższy średniej pierwotnego rozkładu, jeśli rozmiar podzbioru wzrośnie. Jeśli wybierzesz jedną osobę, istnieje uzasadniona szansa, że znajdziesz wyjątek, ale znalezienie tego samego wyjątku w tym samym kierunku dwukrotnie staje się mniej prawdopodobne. I tak dalej, im większy rozmiar próbkowanego podzbioru, tym mniejsza szansa na wyjątkowy podzbiór.
Ważna uwaga! Twoje oszacowanie nie będzie zależeć od wielkości populacji, z której pobierasz próbki, ale od rozkładu tej populacji.
W przypadku działu wielkości 500. Odchylenie średnich losowych podzbiorów (o rozmiarze 125) będzie 11 razy mniejsze niż odchylenie pierwotne. Należy zauważyć, że błąd w pomiarze (odchylenie średniej losowo wybranych podzbiorów) jest niezależny od wielkości działu. Może to być 500, 5000 lub 50000, we wszystkich przypadkach szacunek byłby niezmieniony, dopóki miałyby ten sam rozkład (teraz mały dział może mieć dziwny rozkład, ale to zaczyna znikać dla większych grup).
2) Pobieranie próbek nie musi być całkowicie losowe. Możesz wziąć pod uwagę dane demograficzne.
Ostatecznie potraktowałbyś każdy dział osobno w tego rodzaju analizie i skorygowałeś różnice między działami oraz sposób pobierania próbek w tych działach różnej wielkości.
W tej korekcie występują dwa ważne różnice. Można założyć rozkład między grupami jako zmienną losową lub nie. Jeśli potraktujesz ją jako zmienną losową, wówczas analiza stanie się silniejsza (biorąc pod uwagę pewien stopień swobody w modelu), ale założenie może być błędne, jeśli różnych grup nie można wymieniać jako bytów losowych bez określonego efektu (co wydaje się być twoja sprawa, ponieważ wyobrażam sobie, że departamenty mają różne funkcje i mogą mieć bardzo różne nastroje, które nie są przypadkowe w stosunku do departamentu).
źródło
Twoje pytanie dotyczy wielkości próby dla skończonej populacji. Ale pierwszą rzeczą, jakiej potrzebujesz, jest wielkość próby wymagana w nieskończonej populacji, która może być następnie wykorzystana do obliczenia wielkości próby dla populacji skończonej.
Jeśli wykorzystałeś 25% populacji, poziom błędu wyniesie 5,4%. Ten poziom błędu może być w porządku na podstawie poprzednich ankiet. W przypadku ankiet zawsze występuje kompromis między poziomem błędu, który chcesz zaakceptować, a kosztami przeprowadzenia ankiety.
Sprawy stają się bardziej skomplikowane, jeśli chcesz podzielić populację według działów (tzw. Stratyfikacja). Zasadniczo musisz traktować każdy dział jako osobną skończoną populację, jeśli chcesz, aby dane były dokładne dla każdego działu, co może nie być praktyczne. Ale możesz zrobić stratyfikowaną próbę losową zamiast prostej próby losowej, w której 50% próbki jest losowo wybieranych z działu z 50% populacji, a odpowiednie odsetki są losowo pobierane z innych działów. Oznacza to, że wielkość twojej próby nieznacznie wzrośnie, ponieważ musisz zaokrąglić wszystkie miejsca dziesiętne w górę (nie możesz zbadać 0,1 osoby). Jednak wyniki powinny być badane na poziomie populacji (firmy), a nie na poziomie działu, ponieważ nie będzie wystarczającej liczby odpowiedzi z każdego działu, aby były dokładne.
źródło
Mówiąc o prawidłowej próbce, podstawowym pojęciem jest zwykle reprezentacja. Czy próba „odpowiednio” reprezentuje populację? Aby uzyskać reprezentatywną próbkę, należy upewnić się, że wielkość próby jest odpowiednia (w celu zmniejszenia wariancji oszacowania) i że próbka zawiera elementy należące do podgrup populacji wykazujących różne typy zachowania rozważany.
Po pierwsze, odsetek użytkowników wybranych do ankiety ma mniejsze znaczenie w porównaniu do bezwzględnej liczby wybranych użytkowników. Wymagana wielkość próby będzie zależeć od wymogu dokładności lub przedziału ufności w udzielonej odpowiedzi. Możesz przeczytać ten artykuł, aby uzyskać więcej informacji.
Wspominasz, że firma składa się z kilku działów. Czy prawdopodobne jest, że departamenty różnią się w odpowiedziach na ankietę? Jeśli tak (a może nie wiesz tego na pewno), dobrym pomysłem byłoby „rozwarstwienie” próby w różnych działach. W najprostszej formie oznacza to wybranie równej części ludzi z każdego działu. Np .: wielkość firmy wynosi 1000, a wybrana wielkość próby wynosi 100. Następnie wybierzesz 50 z działu o wielkości 500, 10 z działu o wielkości 100 itp. Ma to na celu uniknięcie niedostatecznej reprezentacji określonego działu w każda konkretna „losowa” próbka.
Wspominasz również, że nie wszyscy mogą odpowiedzieć na ankietę. Jeśli wiesz, że mniej więcej połowa ludzi odpowie, to aby uzyskać 100 odpowiedzi, musisz wysłać ankietę do 200 osób. Będziesz musiał wziąć pod uwagę możliwość, że takie odpowiedzi mogą być stronnicze. Osoby z konkretną odpowiedzią mogą być bardziej lub mniej skłonne do odpowiedzi.
źródło
Jest to ważna próbka, o ile pochodzi z populacji, którą ma opisać. Oznacza to, że jeśli próbujesz tylko szefów, nie możesz nic powiedzieć o innych pracownikach; tak się nie stanie w opisanym przez Ciebie otoczeniu. Może się to jednak zdarzyć z powodu braku odpowiedzi (więcej na ten temat poniżej).
To już nie jest kwestia ważności próbki, ale błąd próby. Oczywiście najdokładniejsze oszacowania uzyskano by z losowego losowania warstwowego, przy czym warstwa obejmowała co najmniej poziom działu. W takim ustawieniu będziesz mieć prawidłową próbkę dla każdego działu, ale szacunki dla małych działów będą ogólnie mniej dokładne niż szacunki dla dużych działów, dzięki wyższej bezwzględnej wielkości próby dla tego drugiego. W przypadku całej organizacji wyższa reprezentacja próby w większych departamentach po prostu odzwierciedla rzeczywistość organizacji i w żaden sposób nie zmniejsza ważności próby.
Nie będziesz w stanie zmusić nikogo do udzielenia dobrej odpowiedzi, ale wdrożenie planu przypomnienia o odpowiedzi jest minimum. Ponadto powinieneś wyjaśnić znaczenie ankiety pracownikom i ich wpływ, jaki mogą mieć na organizację dzięki ankiecie: np. Kiedy publikowane są wyniki? jakie są potencjalne działania podjęte przez organizację na podstawie ankiety? dlaczego każda odpowiedź ma znaczenie?
Po zebraniu danych brak odpowiedzi stanowi problem, którym należy się zająć. Radzenie sobie z tym oznacza, że powinieneś najpierw przeanalizować zachowanie braku odpowiedzi, aby wykryć potencjalne wzorce: czy żaden szef nie zareagował? Czy dany dział w ogóle nie odpowiedział? Następnie zastosuj niezbędną strategię (po strafifikacji, zmianie wagi, przypisaniu itp.).
źródło
Rozwijam @ICannotFix. Ta odpowiedź zawiera przykład tego, jak ważne są cztery czynniki:
Wpływ tych czynników na wyniki zależeć będzie od użytej statystyki. Na przykład, jeśli chcesz zgadnąć na podstawie jakiejś zmiennej, możesz użyć testu T studenta .
Załóżmy, że dzięki tej ankiecie chcesz ustalić średnią wysokość swoich pracowników. W rzeczywistości nie znasz standardowego odchylenia wzrostu wszystkich pracowników w Twojej firmie (bez mierzenia wszystkich), ale możesz przeprowadzić badania i zgadywać na 3 cale (jest to w przybliżeniu standardowe odchylenie wysokości dla mężczyzn w USA).
Jeśli przebadałeś tylko 5 osób, to w 95% przypadków średnia wysokość obserwowana w ankiecie będzie mieścić się w odległości 3,72 cala od prawdziwej średniej wysokości.
Jak wpływają na to nasze czynniki:
Jeśli chcesz bardzo dokładnie poznać średnią wysokość (np. Wielkość efektu jest bardzo mała), będziesz potrzebować dużej liczby próbek. Na przykład, aby poznać prawdziwą średnią wysokość w promieniu 2,66 cala, musisz zbadać 100 osób.
Jeśli odchylenie standardowe jest duże, to dokładność, którą można uzyskać, będzie ograniczona. Gdyby odchylenie standardowe wynosiło 6 cali zamiast 3 cali, a nadal miałeś 5 odpowiedzi, wiedziałbyś tylko w granicach 7,44 cala zamiast 3,72 cala prawdziwej średniej wysokości.
Pomijam ten punkt, ponieważ jest on przedmiotem całej dyskusji.
Jeśli naprawdę musisz upewnić się, że masz poprawną odpowiedź, musisz zbadać więcej osób. W naszym przykładzie widzieliśmy, że przy 5 odpowiedziach możemy uzyskać w ciągu 3,72 cala 95% czasu. Jeśli chcielibyśmy mieć pewność, że nasza odpowiedź była w prawidłowym zakresie w 99% przypadków, to nasz zakres wyniesie 6,17 cala, a nie 3,72 cala.
źródło