Nierówne rozmiary próbek: kiedy to nazwać, kończy się

14

Przeglądam artykuł w czasopiśmie akademickim, a autorzy napisali następujące uzasadnienie dla nieprzekazywania żadnych wnioskowania statystycznego (zidentyfikowałem charakter obu grup):

W sumie, 25 2349 (1,1%) respondentów X . Właściwie powstrzymujemy się od przedstawiania analiz, które statystycznie porównują grupę X do grupy Y (pozostałych 2324 uczestników), ponieważ wyniki te mogą być silnie napędzane przypadkiem, a wynik jest tak rzadki.

Moje pytanie: czy autorzy tego badania są uzasadnieni, rzucając ręcznikiem w stosunku do grup porównawczych? Jeśli nie, co mogę im polecić?

Aaron Duke
źródło

Odpowiedzi:

20

Testy statystyczne nie zakładają wielkości próby. Istnieją oczywiście różne założenia dla różnych testów (np. Normalność), ale równość wielkości próbek nie jest jednym z nich. O ile zastosowany test nie jest nieodpowiedni w inny sposób (nie mogę teraz wymyślić problemu), na poziom błędu typu I nie będą miały wpływu drastycznie nierówne rozmiary grup. Co więcej, ich sformułowanie sugeruje (moim zdaniem), że wierzą, że tak będzie. Dlatego są zdezorientowani w tych kwestiach.

Z drugiej strony, typ II poziom błędu bardzo będzie mieć wpływ bardzo nierówny s. To będzie prawdziwa bez względu na testy (np t -test, Manna-Whitneya U -test lub z -test równości proporcji będzie wszystko wpływa w ten sposób). Przykład tego znajduje się w mojej odpowiedzi tutaj: Jak interpretować porównanie średnich z różnych wielkości próby? Dlatego mogą być „usprawiedliwieni w rzucaniu ręcznikiem” w związku z tym problemem. (W szczególności, jeśli oczekujesz nieistotnego wyniku, niezależnie od tego, czy efekt jest prawdziwy, czy nie, jaki jest sens testu?) ntUz

W miarę różnic wielkości próbek moc statystyczna zbiegnie się do . Fakt ten faktycznie prowadzi do innej sugestii, o której podejrzewam, że niewiele osób kiedykolwiek słyszało i prawdopodobnie miałby problemy z obejściem poprzednich recenzentów (bez zamierzonego przestępstwa): analiza siły kompromisu . Pomysł jest stosunkowo prosty: w każdej analizie mocy α , β , n 1 , n 2 i wielkość efektu d istnieją w stosunku do siebie. Po określeniu wszystkich oprócz jednego możesz rozwiązać ostatnie. Zazwyczaj ludzie robią tak zwaną analizę mocy a priori , w której rozwiązujesz dla Nααβn1n2dN(ogólnie zakładasz, że ). Z drugiej strony, można naprawić n 1 , n 2 , a d i rozwiązać za alfa (lub równoważnie β ), jeśli określenie współczynnika typu I do II SPRAWDŹ Błąd rodzaju, że jesteś gotów żyć. Konwencjonalnie, α = 0,05 i β = 0,20 , więc mówisz, że błędy typu I są cztery razy gorsze niż błędy typu I. Oczywiście, dany badacz może się z tym nie zgodzić, ale po określeniu określonego stosunku możesz rozwiązać dla czego αn1=n2n1n2dαβα=.05β=.20αpowinieneś używać, aby ewentualnie utrzymać odpowiednią moc. To podejście jest logicznie uzasadnioną opcją dla badaczy w tej sytuacji, chociaż zdaję sobie sprawę z egzotyki tego podejścia, która może sprawić, że będzie to trudna sprzedaż w większej społeczności badawczej, która prawdopodobnie nigdy nie słyszała o takiej rzeczy.

gung - Przywróć Monikę
źródło
Jest to niezwykle pomocne. Znalazłem również twoją odpowiedź na Jak interpretować porównanie średnich z różnych wielkości próby? przydatne w moim własnym zrozumieniu tego problemu. Po przeczytaniu twojej odpowiedzi przedstawię autorom możliwość analizy kompromisowej mocy (brzmi to jak bezpieczny zakład, że nie są z nią zaznajomieni) i może sugeruję bardziej szczegółowe w swoich komentarzach dotyczących obaw o władzę.
Aaron Duke
2
Nie ma za co, @AaronD. Moim zdaniem zdecydowanie powinieneś zachęcić ich do zmiany przynajmniej frazowania, ponieważ jest to albo wprowadzające w błąd, albo sugeruje, że nie rozumieją tematu. Przewidywałbym, że nie podejmą próby kompromisowej analizy mocy, ale mogą również po prostu zgłosić statystyki opisowe (średnie i SD) oraz wielkość efektu z odpowiednimi przedziałami ufności.
gung - Przywróć Monikę
6

Chociaż odpowiedź z @gung jest doskonała, myślę, że jest jedna ważna kwestia, którą należy wziąć pod uwagę, patrząc na bardzo różne wielkości grup. Zasadniczo, dopóki wszystkie wymagania testu są spełnione, różnica wielkości grup nie jest istotna.

Jednak w niektórych przypadkach różna wielkość grupy będzie miała dramatyczny wpływ na odporność testu na naruszenie tych założeń. Na przykład klasyczny niesparowany test t dla dwóch prób zakłada homongencyjność wariancji i jest odporny na naruszenia tylko wtedy, gdy obie grupy są podobnej wielkości (rzędu wielkości). W przeciwnym razie większa wariancja w mniejszej grupie doprowadzi do błędów typu I. Teraz z testem t nie stanowi to większego problemu, ponieważ zwykle zamiast niego stosuje się test t-Welcha i nie zakłada on jednorodności wariancji. Podobne efekty mogą jednak wystąpić w modelach liniowych.

Podsumowując, powiedziałbym, że nie jest to w żaden sposób przeszkodą w analizie statystycznej, ale należy o tym pamiętać przy podejmowaniu decyzji o dalszym postępowaniu.

Erik
źródło
8
Uważam, że sedno sprawy nie polega na stosowaniu testów, ale na ich znaczeniu i interpretowalności. Pytanie dotyczy „respondentów”. To zdecydowanie sugeruje możliwość niezerowego wskaźnika braku odpowiedzi. Nawet niewielki wskaźnik braku odpowiedzi (niewielki ułamek jednego procenta) w stosunku do wielkości badania stanowiłby ogromny wskaźnik braku odpowiedzi w stosunku do małej podgrupy. To podważa reprezentatywność każdej tak małej podgrupy. W rezultacie jest to ogromną przeszkodą dla każdej analizy statystycznej.
whuber