Ankiety: Czy 25% reprezentuje dużą bazę użytkowników?

13

Mój pracodawca prowadzi obecnie ankietę dla całej firmy na temat stosunku do biura, tj. Sentymentu. W przeszłości otworzyli ankietę dla wszystkich obszarów działalności (Załóżmy 10 bardzo różnych działów) i wszystkich pracowników w nich zatrudnionych (Załóżmy łącznie 1000 pracowników w całej firmie) Liczba pracowników w każdym dziale nie jest równa i jeden konkretny dział to prawdopodobnie 50% całkowitej populacji organizacji.

W tym roku badanie jest otwarte tylko dla 25% całkowitej bazy pracowników, a wybór jest „losowy”

Dlatego mam dwa zapytania:

  • Jeśli jest to naprawdę losowy wybór całej bazy pracowników, jak to jest statystycznie ważna próba zakładająca, że ​​wszyscy ci pracownicy odpowiedzieli?

  • Jeśli jest losowy na poziomie poszczególnych działów, np. 25% każdego działu, to w jaki sposób ważna próbka uwzględniająca jeden dział stanowi ponad 50% całej populacji.

Zakładałbym, że aby określić sentyment większości w firmie, potrzeba co najmniej 50% bazy pracowników w każdym dziale, aby zapewnić prawdziwy sentyment do czytania.

Aktualizacja : ankieta nie jest wymuszona. Nie można zagwarantować 100% odsetka odpowiedzi z wybranych 25%. Nie ma zachęt ani środków karnych, jeśli ankieta jest wypełniona lub nie.

Colin
źródło
2
Sugerowałbym, aby ankieta była tak mała (liczba / rodzaj pytań), jaka musi być, a następnie uczynić ją obowiązkową przez tak małą liczbę, jak potrzebujesz, aby pracownicy / menedżerowie nie narzekali, że to wielka chwila. Jeśli ludzie wybiorą siebie, gwarantuje to systematyczną stronniczość jakiejś formy.
Nick T
Jeśli mierzysz, to znaczy średnią zmiennej, która jest normalnie rozłożona, a następnie po około 20 odpowiedziach rozmiar twojego przedziału +/- będzie rósł w przybliżeniu 1/sqrt(# responses). Na przykład przy 20 odpowiedziach +/- .468 * sigma. Z 100 odpowiedziami będzie +/- .198 * sigma. Z 1000 odpowiedziami będzie +/- .062 * sigma.
Tempo

Odpowiedzi:

22

Pomyśl o ankietach w ogólnej populacji, powiedzmy w USA. Jeśli potrzebujemy 50% populacji do ustalenia opinii większości, potrzebowalibyśmy próbki około 160 milionów, co jest naprawdę wygórowane. Nawet 1% próby jest ekstremalne (około 3,2 miliona) i jest rzadko wykonywane. Ważna ankieta przeprowadzona w Stanach Zjednoczonych przez General Social Survey obejmuje próby od 1500 do prawie 3000. Próbka 25% sama w sobie nie stanowi problemu.

Pamiętaj, że ankieta nie jest wyborą ani referendum. Aby ta ostatnia była zgodna z prawem, każda uprawniona osoba musi mieć możliwość wypowiedzenia się. Celem ankiety jest uzyskanie dobrego oszacowania przeciętnej opinii, a można ją uzyskać losowo. Dlatego firma musi zdecydować, jaki jest cel ankiety: czy jest to sposób na wyrażenie opinii przez pracowników i uczestnictwo w firmie, czy też sposób na uzyskanie informacji przez menedżerów?

Oba projekty próbkowania zapewniają, że 25% pracowników jest pytanych. Ten ostatni zapewnia reprezentację mniejszego działu w ankiecie. Jeśli zależy Ci na standardowych błędach, powinieneś wziąć pod uwagę zagnieżdżoną naturę próbkowania, choć nie podejrzewam, że w tym przypadku będzie to miało duże znaczenie.

Maarten Buis
źródło
2
+1, ale warto podkreślić, że jeśli nie interesuje Cię „przeciętna opinia”, ale coś innego, mogą być potrzebne większe próbki.
Tim
1
Dziękuję za Twoją odpowiedź. Jednak i to było moje pominięcie, nie ma egzekwowania ankiety. Tylko 25% zostanie poproszonych, ale nie są zobowiązani do udzielenia odpowiedzi.
Colin
2
To też jest normalne. Gdybym wypełnił ankietę, trudno byłoby zmusić ludzi do odpowiedzi. Mógłbym spróbować zatrudnić kilku zbirów, aby „przekonać” moich respondentów, ale miałoby to pewne etyczne i prawne konsekwencje ... Niemniej jednak brak odpowiedzi jest problemem, ale jest to problem, z którym większość ankiet ma do czynienia.
Maarten Buis
7

Według etymologii „ ankieta ” ( sur-z „super”, jak w „z góry” i -vey„z widoku”) oznacza uzyskanie przeglądu , a nie pełnego obrazu.

Tak długo, jak 25% było naprawdę losowe i nie tzn. Samo-wybrane (opt-in), to całkiem spełnia definicję tego terminu. Jeśli ankieta jest opcjonalna, wówczas odpowiedzi będą reprezentatywne tylko dla tych, którzy czują potrzebę odpowiedzi. Wyobraź sobie na przykład restaurację, w której po posiłku można było wypełnić kartę informacyjną. Nawet jeśli większość klientów jest zadowolona, ​​większość opinii będzie negatywna, ponieważ zadowoleni klienci nie widzą powodu, aby wyrazić opinię.

dotancohen
źródło
1
Czy mógłbyś rozwinąć efekt „samoselekcji”? Ta ankieta nie jest wymuszona, jest całkowicie opcjonalna i nie ma żadnych zachęt ani środków karnych, jeśli ją wypełnisz lub jej nie wypełnisz. Zaktualizuję moje pytanie wstępne.
Colin
6
@Colin: Jeśli ankieta jest opcjonalna, odpowiedzi będą reprezentatywne tylko dla tych, którzy czują potrzebę odpowiedzi. Wyobraź sobie na przykład restaurację, w której po posiłku można było wypełnić kartę informacyjną. Nawet jeśli większość klientów jest zadowolona, ​​większość opinii będzie negatywna, ponieważ zadowoleni klienci nie widzą powodu, aby wyrazić opinię.
dotancohen
1
@dotancohen Myślę, że odpowiedź bardzo by pomogła, gdyby ten komentarz został w niej uwzględniony.
Pere
@Pere: Dzięki, martwiłem się, że umieszczenie komentarza w odpowiedzi może odwrócić uwagę od punktu etymologicznego. Ale masz rację, a ja to
dodam
4

Kolejny punkt widzenia pochodzi z teorii projektowania eksperymentu.

Moc statystyczna to prawdopodobieństwo znalezienia efektu, jeśli jest rzeczywisty ( źródło )

Cztery czynniki wpływają na moc:

  1. Wielkość efektu
  2. Standardowe odchylenie charakterystyki
  3. Większy rozmiar próbki
  4. Pożądany poziom istotności

Na podstawie tych elementów możesz napisać formalne równanie matematyczne, które odnosi moc, wielkość próbki, wielkość efektu, odchylenie standardowe i poziom istotności ( źródło )

Zgodnie z zestawem założeń możesz scharakteryzować ankietę jako eksperyment i wykorzystać strukturę eksperymentu ( tutaj jest kilka przykładów). Istnieje wiele wykształconych przypuszczeń; jednak niedoskonały model może być lepszy niż żaden model.

IcannotFixThis
źródło
3

Wyczuwam dwa pytania. Jeden dotyczy wielkości próby (25%, dlaczego nie większość), a drugi dotyczy techniki pobierania próbek (czy to naprawdę losowe, próbka 25% losowo w całej firmie, próbka 25% losowo w każdym dziale, czy zastosowanie innej dystrybucji).

1) Wielkość próby nie musi być większością. Wymagana wielkość próbki może wynosić od 0 do 100%, w zależności od wymaganej dokładności dla danego współczynnika ufności lub prawdopodobieństwa.

Nigdy nie uzyskuje się 100% pewności (również nie z podzbiorem 50% lub większym). Osiągnięcie tak wysokiej dokładności również nie jest celem pobierania próbek i szacowania.

Zobacz więcej na temat przykładowych rozmiarów: https://en.wikipedia.org/wiki/Sample_size_determination

Jeśli znasz prawo wielkich liczb, możesz mieć intuicyjny pomysł.

Rozkład średnich wszystkich możliwych podzbiorów (a twoja próbka będzie jednym z nich), stanie się mniejszy i bliższy średniej pierwotnego rozkładu, jeśli rozmiar podzbioru wzrośnie. Jeśli wybierzesz jedną osobę, istnieje uzasadniona szansa, że ​​znajdziesz wyjątek, ale znalezienie tego samego wyjątku w tym samym kierunku dwukrotnie staje się mniej prawdopodobne. I tak dalej, im większy rozmiar próbkowanego podzbioru, tym mniejsza szansa na wyjątkowy podzbiór.

n

Ważna uwaga! Twoje oszacowanie nie będzie zależeć od wielkości populacji, z której pobierasz próbki, ale od rozkładu tej populacji.

W przypadku działu wielkości 500. Odchylenie średnich losowych podzbiorów (o rozmiarze 125) będzie 11 razy mniejsze niż odchylenie pierwotne. Należy zauważyć, że błąd w pomiarze (odchylenie średniej losowo wybranych podzbiorów) jest niezależny od wielkości działu. Może to być 500, 5000 lub 50000, we wszystkich przypadkach szacunek byłby niezmieniony, dopóki miałyby ten sam rozkład (teraz mały dział może mieć dziwny rozkład, ale to zaczyna znikać dla większych grup).

2) Pobieranie próbek nie musi być całkowicie losowe. Możesz wziąć pod uwagę dane demograficzne.

Ostatecznie potraktowałbyś każdy dział osobno w tego rodzaju analizie i skorygowałeś różnice między działami oraz sposób pobierania próbek w tych działach różnej wielkości.

W tej korekcie występują dwa ważne różnice. Można założyć rozkład między grupami jako zmienną losową lub nie. Jeśli potraktujesz ją jako zmienną losową, wówczas analiza stanie się silniejsza (biorąc pod uwagę pewien stopień swobody w modelu), ale założenie może być błędne, jeśli różnych grup nie można wymieniać jako bytów losowych bez określonego efektu (co wydaje się być twoja sprawa, ponieważ wyobrażam sobie, że departamenty mają różne funkcje i mogą mieć bardzo różne nastroje, które nie są przypadkowe w stosunku do departamentu).

Sextus Empiricus
źródło
1
Dziękuję za Twoją odpowiedź. Jednak i to było moje pominięcie, nie ma egzekwowania ankiety. Tylko 25% zostanie poproszonych, ale nie są zobowiązani do udzielenia odpowiedzi.
Colin
1
Następnie pojawia się dodatkowe trzecie pytanie dotyczące technik pobierania próbek i sposobu gromadzenia danych. W przypadku takich problemów, jak radzić sobie z brakiem odpowiedzi i innymi aspektami jakości danych, nie ma jednej odpowiedzi. W każdym razie (z pytaniem o 50% lub 25%), jeśli istnieje duży problem z odpowiedzią, każda dyskusja na temat analizy statystycznej ma drugorzędne znaczenie. Nie poprawisz tego badania znacznie przy większym (np. Pytaniu> 50%) próbkowaniu i lepiej skupić się na dobrym próbkowaniu.
Sextus Empiricus
2

Twoje pytanie dotyczy wielkości próby dla skończonej populacji. Ale pierwszą rzeczą, jakiej potrzebujesz, jest wielkość próby wymagana w nieskończonej populacji, która może być następnie wykorzystana do obliczenia wielkości próby dla populacji skończonej.

n=(z2)pq)/re2)
n
z2)
p
q=1-p
re2)

(1,96×0,5×0,5)/0,032)=1,068

m=n/(1+((n-1)/N.))
m
n
N.

N.=1,0001068/(1+((1068-1)/1000))=517

Jeśli wykorzystałeś 25% populacji, poziom błędu wyniesie 5,4%. Ten poziom błędu może być w porządku na podstawie poprzednich ankiet. W przypadku ankiet zawsze występuje kompromis między poziomem błędu, który chcesz zaakceptować, a kosztami przeprowadzenia ankiety.

517/0,65=796

Sprawy stają się bardziej skomplikowane, jeśli chcesz podzielić populację według działów (tzw. Stratyfikacja). Zasadniczo musisz traktować każdy dział jako osobną skończoną populację, jeśli chcesz, aby dane były dokładne dla każdego działu, co może nie być praktyczne. Ale możesz zrobić stratyfikowaną próbę losową zamiast prostej próby losowej, w której 50% próbki jest losowo wybieranych z działu z 50% populacji, a odpowiednie odsetki są losowo pobierane z innych działów. Oznacza to, że wielkość twojej próby nieznacznie wzrośnie, ponieważ musisz zaokrąglić wszystkie miejsca dziesiętne w górę (nie możesz zbadać 0,1 osoby). Jednak wyniki powinny być badane na poziomie populacji (firmy), a nie na poziomie działu, ponieważ nie będzie wystarczającej liczby odpowiedzi z każdego działu, aby były dokładne.

mjc
źródło
1

Mówiąc o prawidłowej próbce, podstawowym pojęciem jest zwykle reprezentacja. Czy próba „odpowiednio” reprezentuje populację? Aby uzyskać reprezentatywną próbkę, należy upewnić się, że wielkość próby jest odpowiednia (w celu zmniejszenia wariancji oszacowania) i że próbka zawiera elementy należące do podgrup populacji wykazujących różne typy zachowania rozważany.

Po pierwsze, odsetek użytkowników wybranych do ankiety ma mniejsze znaczenie w porównaniu do bezwzględnej liczby wybranych użytkowników. Wymagana wielkość próby będzie zależeć od wymogu dokładności lub przedziału ufności w udzielonej odpowiedzi. Możesz przeczytać ten artykuł, aby uzyskać więcej informacji.

Wspominasz, że firma składa się z kilku działów. Czy prawdopodobne jest, że departamenty różnią się w odpowiedziach na ankietę? Jeśli tak (a może nie wiesz tego na pewno), dobrym pomysłem byłoby „rozwarstwienie” próby w różnych działach. W najprostszej formie oznacza to wybranie równej części ludzi z każdego działu. Np .: wielkość firmy wynosi 1000, a wybrana wielkość próby wynosi 100. Następnie wybierzesz 50 z działu o wielkości 500, 10 z działu o wielkości 100 itp. Ma to na celu uniknięcie niedostatecznej reprezentacji określonego działu w każda konkretna „losowa” próbka.

Wspominasz również, że nie wszyscy mogą odpowiedzieć na ankietę. Jeśli wiesz, że mniej więcej połowa ludzi odpowie, to aby uzyskać 100 odpowiedzi, musisz wysłać ankietę do 200 osób. Będziesz musiał wziąć pod uwagę możliwość, że takie odpowiedzi mogą być stronnicze. Osoby z konkretną odpowiedzią mogą być bardziej lub mniej skłonne do odpowiedzi.

raghu
źródło
1

Jeśli jest to naprawdę losowy wybór całej bazy pracowników , jak to jest statystycznie ważna próba zakładająca, że ​​wszyscy ci pracownicy odpowiedzieli?

Jest to ważna próbka, o ile pochodzi z populacji, którą ma opisać. Oznacza to, że jeśli próbujesz tylko szefów, nie możesz nic powiedzieć o innych pracownikach; tak się nie stanie w opisanym przez Ciebie otoczeniu. Może się to jednak zdarzyć z powodu braku odpowiedzi (więcej na ten temat poniżej).

Jeśli jest losowy na poziomie poszczególnych działów, np. 25% każdego działu, to w jaki sposób ważna próbka uwzględniająca jeden dział stanowi ponad 50% całej populacji.

To już nie jest kwestia ważności próbki, ale błąd próby. Oczywiście najdokładniejsze oszacowania uzyskano by z losowego losowania warstwowego, przy czym warstwa obejmowała co najmniej poziom działu. W takim ustawieniu będziesz mieć prawidłową próbkę dla każdego działu, ale szacunki dla małych działów będą ogólnie mniej dokładne niż szacunki dla dużych działów, dzięki wyższej bezwzględnej wielkości próby dla tego drugiego. W przypadku całej organizacji wyższa reprezentacja próby w większych departamentach po prostu odzwierciedla rzeczywistość organizacji i w żaden sposób nie zmniejsza ważności próby.

Ankieta nie jest egzekwowana. Nie można zagwarantować 100% odsetka odpowiedzi z wybranych 25%. Nie ma zachęt ani środków karnych, jeśli ankieta jest wypełniona lub nie.

Nie będziesz w stanie zmusić nikogo do udzielenia dobrej odpowiedzi, ale wdrożenie planu przypomnienia o odpowiedzi jest minimum. Ponadto powinieneś wyjaśnić znaczenie ankiety pracownikom i ich wpływ, jaki mogą mieć na organizację dzięki ankiecie: np. Kiedy publikowane są wyniki? jakie są potencjalne działania podjęte przez organizację na podstawie ankiety? dlaczego każda odpowiedź ma znaczenie?

Po zebraniu danych brak odpowiedzi stanowi problem, którym należy się zająć. Radzenie sobie z tym oznacza, że ​​powinieneś najpierw przeanalizować zachowanie braku odpowiedzi, aby wykryć potencjalne wzorce: czy żaden szef nie zareagował? Czy dany dział w ogóle nie odpowiedział? Następnie zastosuj niezbędną strategię (po strafifikacji, zmianie wagi, przypisaniu itp.).

g3o2
źródło
1

Rozwijam @ICannotFix. Ta odpowiedź zawiera przykład tego, jak ważne są cztery czynniki:

  1. Wielkość efektu
  2. Standardowe odchylenie charakterystyki
  3. Większy rozmiar próbki
  4. Pożądany poziom istotności

Wpływ tych czynników na wyniki zależeć będzie od użytej statystyki. Na przykład, jeśli chcesz zgadnąć na podstawie jakiejś zmiennej, możesz użyć testu T studenta .

Załóżmy, że dzięki tej ankiecie chcesz ustalić średnią wysokość swoich pracowników. W rzeczywistości nie znasz standardowego odchylenia wzrostu wszystkich pracowników w Twojej firmie (bez mierzenia wszystkich), ale możesz przeprowadzić badania i zgadywać na 3 cale (jest to w przybliżeniu standardowe odchylenie wysokości dla mężczyzn w USA).

Jeśli przebadałeś tylko 5 osób, to w 95% przypadków średnia wysokość obserwowana w ankiecie będzie mieścić się w odległości 3,72 cala od prawdziwej średniej wysokości.

Jak wpływają na to nasze czynniki:

  1. Jeśli chcesz bardzo dokładnie poznać średnią wysokość (np. Wielkość efektu jest bardzo mała), będziesz potrzebować dużej liczby próbek. Na przykład, aby poznać prawdziwą średnią wysokość w promieniu 2,66 cala, musisz zbadać 100 osób.

  2. Jeśli odchylenie standardowe jest duże, to dokładność, którą można uzyskać, będzie ograniczona. Gdyby odchylenie standardowe wynosiło 6 cali zamiast 3 cali, a nadal miałeś 5 odpowiedzi, wiedziałbyś tylko w granicach 7,44 cala zamiast 3,72 cala prawdziwej średniej wysokości.

  3. Pomijam ten punkt, ponieważ jest on przedmiotem całej dyskusji.

  4. Jeśli naprawdę musisz upewnić się, że masz poprawną odpowiedź, musisz zbadać więcej osób. W naszym przykładzie widzieliśmy, że przy 5 odpowiedziach możemy uzyskać w ciągu 3,72 cala 95% czasu. Jeśli chcielibyśmy mieć pewność, że nasza odpowiedź była w prawidłowym zakresie w 99% przypadków, to nasz zakres wyniesie 6,17 cala, a nie 3,72 cala.

Tempo
źródło