Minimalna wielkość próbki dla niesparowanego testu t

16

Czy istnieje „reguła” określająca minimalną wielkość próbki wymaganą do prawidłowego przeprowadzenia testu t?

Na przykład należy dokonać porównania między średnimi 2 populacji. Istnieje 7 punktów danych z jednej populacji i tylko 2 punkty danych z drugiej. Niestety eksperyment jest bardzo kosztowny i czasochłonny, a uzyskanie większej ilości danych nie jest możliwe.

Czy można zastosować test t? Dlaczego lub dlaczego nie? Podaj szczegóły (wariancje i rozkłady populacji nie są znane). Jeśli nie można zastosować testu t, to czy można zastosować test nieparametryczny (Mann Whitney)? Dlaczego lub dlaczego nie?

Johnny Puzzled
źródło
2
To pytanie obejmuje podobny materiał i będzie interesujące dla osób przeglądających tę stronę: Czy wymagany jest minimalny rozmiar próbki, aby test t był ważny? .
gung - Przywróć Monikę
Zobacz także to pytanie, w którym omawiane są testy z jeszcze mniejszymi próbkami.
Glen_b

Odpowiedzi:

8

Zalecałbym użycie nieparametrycznego testu U Manna-Whitneya zamiast niesparowanego t -test tutaj.

Nie ma absolutnie minimalnej wielkości próbki dla testu t , ale gdy rozmiary próbek stają się mniejsze, test staje się bardziej wrażliwy na założenie, że obie próbki są pobierane z populacji o rozkładzie normalnym. Przy tak małych próbkach, szczególnie z jedną próbką złożoną tylko z dwóch, trzeba być bardzo pewnym, że rozkłady populacji były normalne - i to musi być oparte na wiedzy zewnętrznej, ponieważ takie małe próbki same w sobie dają bardzo mało informacji na temat normalność lub inaczej ich dystrybucji. Ale mówisz, że „różnice populacji i rozkłady nie są znane” (moja kursywą).

Test U Manna-Whitneya nie wymaga żadnych założeń dotyczących parametrycznej postaci rozkładów, wymagając jedynie założenia, że ​​rozkłady dwóch grup są takie same w ramach hipotezy zerowej.

jeden przystanek
źródło
6
Nie jest to dobra rekomendacja dla bardzo małych próbek. W przypadku 7 i 2 próbek test U zakończy się niepowodzeniem, bez względu na to, jak duża różnica między średnią grup. Spójrz na moją odpowiedź na przykład.
AlefSin
2
Poparłbym to, co mówi @AlefSin. Jeśli ważne jest, aby wyciągnąć prawidłowe wnioski (i nie tylko uzyskać wartość p), wówczas im bardziej rezonansowe założenia, tym lepiej. Jeśli istnieją uzasadnione informacje podstawowe, możesz również dodać jeszcze więcej założeń, jeśli wykonałeś analizę w ramach Bayesa.
Rasmus Bååth
2
Jednym z problemów jest to, że przy tak małych próbkach Wilcoxon-Mann-Whitney nie może osiągnąć typowych poziomów istotności. Przy rozmiarach próbek 7 i 2 nigdy nie uzyskasz znaczącego wyniku na poziomie 5%, bez względu na rażącą różnicę. Zastanów się (1.018,1.031,1.027,1.020,1.021,1.019,1.024) w porównaniu z (713,2, 714,5) - nieistotne na poziomie 5%!
Glen_b
3
To powiedziawszy, jeśli ktoś ma i n 2 = 2 , istnieje bardzo dobry argument, że być może należy rozważyć, czy test 5% ma sens przede wszystkim. Właściwa ocena kosztów dwóch rodzajów błędów może prowadzić do zupełnie innego wyboru. n1=7n2=2
Glen_b
6

(zrzeczenie się: Nie mogę dzisiaj dobrze pisać: moja prawa ręka jest złamana!)

W przeciwieństwie do porady dotyczącej stosowania testu nieparametrycznego w innych odpowiedziach, należy wziąć pod uwagę, że w przypadku bardzo małych próbek metody te nie są zbyt przydatne. Łatwo zrozumieć, dlaczego: w badaniach o wyjątkowo małych rozmiarach nie można ustalić różnicy między grupami, chyba że zaobserwuje się duży rozmiar efektu. Jednak metody nieparametryczne nie dbają o wielkość różnicy między grupami. Tak więc, nawet jeśli różnica między dwiema grupami jest ogromna, przy małej wielkości próby test nieparametryczny zawsze nie odrzuci hipotezy zerowej.

Rozważ ten przykład: dwie grupy, rozkład normalny, ta sama wariancja. Grupa 1: średnio 1,0, 7 próbek. Grupa 2: średnio 5, 2 próbki. Istnieje duża różnica między średnimi.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Obliczona wartość p wynosi 0,055556, co nie odrzuca hipotezy zerowej (przy 0,05). Teraz, nawet jeśli zwiększysz odległość między dwoma średnimi 10 razy, otrzymasz tę samą wartość p:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Teraz zapraszam do powtórzenia tej samej symulacji z testem t i obserwowania wartości p w przypadku dużych (średnio 5 vs 1) i ogromnych (średnio 50 vs 1) różnic.

AlefSin
źródło
5

Nie ma minimalnej wielkości próby dla testu t; Test t został w rzeczywistości zaprojektowany dla małych próbek. W dawnych czasach, kiedy tabele były drukowane, widziałeś tabele testów t dla bardzo małych próbek (mierzonych df).

Oczywiście, podobnie jak w przypadku innych testów, jeśli jest mała próbka, tylko całkiem duży efekt będzie statystycznie istotny.

Peter Flom - Przywróć Monikę
źródło
Ale czy problem będzie również odwrotny? Tj. Czy wartości odstające, które zdarzyły się próbkować, mogą prowadzić do fałszywego odrzucenia hipotezy zerowej? Czy też niska moc wykrywania różnic jest większym problemem? W tej konkretnej sytuacji widzę znaczącą różnicę między środkami, ale nie wiem, jak bardzo to „zaufać”.
Johnny Puzzled
2
Przy n = 2 jesteś zdecydowanie podatny na wpływ wartości odstających - wartości odstających w populacji; w jaki sposób próbka 2 może mieć wartość odstającą w obrębie próbki? :-) W tej sytuacji nie wypróbowałbym żadnych wnioskowania statystycznego. Perspektywy są kiepskie, jeśli chodzi o „prawdę”, a ty pozostaniesz otwarty na krytykę.
rolando2
2
Powodem, dla którego przedział ufności będzie szeroki, jest właśnie to, że możesz otrzymać wartość odstającą. Ale test t nadal zakłada, że ​​próbki pochodzą z normalnej populacji.
Peter Flom - Przywróć Monikę
2

Zakładam, że masz na myśli, że masz 7 punktów danych z jednej grupy i 2 punkty danych z drugiej grupy, z których oba stanowią podzbiory populacji (np. Podzbiór mężczyzn i podzbiór kobiet).

Matematykę testu t można uzyskać na tej stronie Wikipedii . Przyjmiemy niezależny test t dla dwóch próbek, z nierównymi wielkościami próbek (7 vs. 2) i nierównymi wariancjami, czyli mniej więcej w połowie tej strony. Widać, że obliczenia oparte są na średnich i odchyleniach standardowych. Przy zaledwie 7 osobnikach w jednej grupie i 2 osobach w innej nie możesz założyć, że masz dobre oszacowania zarówno średniej, jak i odchylenia standardowego. Dla grupy z 2 podmiotami średnia to po prostu wartość leżąca dokładnie pośrodku dwóch punktów danych, więc nie jest dobrze oszacowana. W grupie z 7 osobnikami wielkość próby silnie wpływa na wariancje (a zatem odchylenia standardowe, które są pierwiastkiem kwadratowym wariancji), ponieważ wartości ekstremalne wywierają znacznie silniejszy efekt, gdy masz mniejszą próbkę.

Na przykład, jeśli spojrzysz na podstawowy przykład na stronie Wikipedii dla odchylenia standardowego , zobaczysz, że odchylenie standardowe wynosi 2, a wariancja (kwadrat odchylenie standardowe) wynosi zatem 4. Ale gdybyśmy mieli tylko dwa pierwsze punkty danych (9 i 1) wariancja wynosiłaby 10/2 = 5, a odchylenie standardowe wynosiłaby 2,2, a gdybyśmy mieli tylko dwie ostatnie wartości (4 i 16), wariancja wynosiłaby 20/2 = 10 a odchylenie standardowe wyniosłoby 3,2. Nadal używamy tych samych wartości, tylko ich mniej, i możemy zobaczyć wpływ na nasze szacunki.

To jest problem z używaniem wnioskowania statystycznego przy małych rozmiarach próbek, na wyniki będą szczególnie silnie wpływać próbki.

Aktualizacja: czy jest jakiś powód, dla którego nie można po prostu zgłosić wyników według tematu i wskazać, że jest to praca badawcza? Tylko w dwóch przypadkach dane są bardzo podobne do studium przypadku i oba są (1) ważne do napisania i (2) zaakceptowana praktyka.

Michelle
źródło
Dzięki Michelle. Jest to interesujące i przydatne. Co jednak poleciłbyś z praktycznego punktu widzenia? Biorąc pod uwagę tę sytuację, jaki jest najlepszy sposób postępowania? Dzięki!
Johnny Puzzled
Cześć Johnny Puzzled. Bez dodatkowych informacji na temat Twojej dokładnej sytuacji nie mogę udzielić więcej wskazówek.
Michelle
Jakiego rodzaju informacje są potrzebne?
Johnny Puzzled
1
Cześć, więcej informacji na temat projektu badania, takich jak dane, sposób ich gromadzenia, grupy, sposób wyboru obserwacji. Wiem tylko, że przeprowadziłeś eksperyment z 9 obserwacjami (ludzie? Szczury? Neurony? Bloki sera? Częstotliwości promieniowania?), Które pochodzą z dwóch grup.
Michelle
Powiedzmy, że średni przepływ krwi do istoty białej w mózgu mierzono u ludzi za pomocą MRI. Grupy to osoby kontrolne (7 osób) i pacjenci z konkretnym zaburzeniem dobrani pod względem wieku / płci (2 osoby).
Johnny Puzzled
1

Ciekawy powiązany artykuł: „Korzystanie z testu t-Studenta przy bardzo niskich rozmiarach próbek” JCF de Winter (w praktyce oceny, badań i oceny) http://goo.gl/ZAUmGW

Epifunky
źródło
0

Poleciłbym porównać wnioski wyciągnięte z obu, testem t i testem Manna-Whitneya, a także przyjrzeć się wykresom pudełkowym i prawdopodobieństwu profilu średniej dla każdej populacji.

Demian
źródło
Cześć @Demian, nie jestem pewien, czy nawet wykres pudełkowy będzie pomocny, gdy jedna grupa ma próbkę wielkości 2. W przeciwnym razie, tak, myślę, że szczególnie wykresy pudełkowe są bardzo pomocne w wizualizacji ciągłych danych między grupami.
Michelle
0

Kod Stata 13 / SE do testu ładowania początkowegoPonieważ test przeprowadzony na małych próbkach prawdopodobnie nie spełnia wymagań testu (głównie normalność populacji, z których pobrano dwie próbki), zaleciłbym wykonanie testu ładowania początkowego (z nierównymi wariancjami), po Efronie B, Tibshirani Rj. Wprowadzenie do Bootstrap. Boca Raton, Floryda: Chapman & Hall / CRC, 1993: 220-224. Kod testu ładowania początkowego na danych dostarczonych przez Johnny'ego Puzzleda w Stata 13 / SE pokazano na powyższym obrazku.

Carlo Lazzaro
źródło
Twoja odpowiedź ma poważne problemy z formatowaniem, czy mógłbyś ją edytować?
ameba mówi Przywróć Monikę
Próbowałem rozwiązać problemy z formatowaniem w sprawdzonej wersji odpowiedzi. Podziękowania dla ameby za zwrócenie na to uwagi.
Carlo Lazzaro
0

Przy wielkości próbki wynoszącej 2 najlepiej jest spojrzeć na same liczby, a nawet nie zawracać sobie głowy analizą statystyczną.

Kevin
źródło
1
Obecnie brzmi to bardziej jak komentarz. Chociaż jest to dobry punkt, dla rozsądnej odpowiedzi na pierwotny problem, można się spodziewać pewnej dyskusji na temat samego problemu, nawet jeśli ostatecznie można stwierdzić, że sensowniejsze jest zrobienie czegoś innego.
Glen_b