Czy wymagany jest minimalny rozmiar próbki, aby test t był ważny?

70

Obecnie pracuję nad quasi-eksperymentalnym artykułem badawczym. Mam tylko 15-osobową próbkę ze względu na małą populację w wybranym obszarze i tylko 15 spełnia moje kryteria. Czy 15 to minimalny rozmiar próbki do obliczenia dla testu t i testu F. Jeśli tak, to gdzie mogę uzyskać artykuł lub książkę na poparcie tej małej próbki?

Ten dokument był już broniony w zeszły poniedziałek i jeden z paneli poprosił o referencje, ponieważ moja próbka jest zbyt mała. Powiedział, że powinno być co najmniej 40 respondentów.

Czarina Francoise
źródło
4
Wielkość próby może być znacznie mniejsza niż 15, jeśli założenia są spełnione. Czy ważność rozkładu t była jedynym powodem, dla którego zasugerował większą próbkę?
Glen_b
Aby wyjaśnić, jaki rodzaj testu t przeprowadzasz: jedna próbka, próbka sparowana lub dwie próbki.
Jeromy Anglim
26
Historycznie, pierwsza demonstracja testu t (w pracy „Student” z 1908 r.) Miała zastosowanie do próbek o rozmiarach czterech . Rzeczywiście, uzyskanie lepszych wyników dla małych próbek to próba sławy testu: gdy wielkość próbki osiągnie około 40, test t nie różni się zasadniczo od testów z, które badacze stosowali przez cały XIX wiek. Możesz udostępnić nowoczesną wersję tego artykułu członkowi panelu: york.ac.uk/depts/maths/histstat/student.pdf . Wskaż dochodzenie w sekcji VI, s. 14–18.
whuber
10
Ale powinieneś zastanowić się nad faktem, że małe próbki, takie jak 4, działają, ponieważ Student miał dane wysokiej jakości: dane z laboratorium chemicznego, eksperymenty, a nie quasi-eksperymenty. Twoim głównym problemem nie jest wielkość próby, ale reprezentatywność: Skąd wiesz, że Twoje dane są reprezentatywne dla czegokolwiek?
kjetil b halvorsen
10
@CzarinaFrancoise Dlaczego mielibyśmy ograniczać się do nauki w wieku <10 lat?
RioRaider

Odpowiedzi:

56

Nie ma minimalnej wielkości próbki, aby test t był ważny. Ważność wymaga, aby założenia dotyczące statystyki testowej były w przybliżeniu. Założenia te dotyczą przypadku z jedną próbką, że dane są w normie (lub w przybliżeniu normalne) ze średnią 0 pod hipotezą zerową i wariancją, która jest nieznana, ale oszacowana na podstawie próby. W przypadku dwóch próbek jest tak, że obie próbki są od siebie niezależne, a każda próbka składa się z iid zmiennych normalnych, przy czym dwie próbki mają tę samą średnią i wspólną nieznaną wariancję pod hipotezą zerową. Do statystyk używana jest zbiorcza ocena wariancji.

W przypadku, gdy jeden przykładowy rozkład mocy hipotezy zerowej jest głównym T z n-1 stopni swobody. W obu przypadkach, próbki o wymiarach próbki n i m nie koniecznie równa zerowy rozkład statystyk testowych jest t o n + m, 2 stopnie swobody. Zwiększona zmienność spowodowana niskim rozmiarem próbki jest uwzględniona w rozkładzie, który ma cięższe ogony, gdy stopnie swobody są niskie, co odpowiada małej wielkości próbki. Można więc znaleźć wartości krytyczne dla statystyki testowej, które mają dany poziom istotności dla dowolnej wielkości próbki (cóż, przynajmniej wielkości 2 lub większej).

Problem z małą wielkością próby dotyczy mocy testu. Recenzent mógł uznać, że 15 na grupę nie było wystarczająco dużej próby, aby mieć dużą moc wykrywania znaczącej różnicy, powiedzmy delta między dwoma średnimi lub średnią większą niż delta wartości bezwzględnej dla problemu z jedną próbką. Potrzeba 40 wymagałaby specyfikacji określonej mocy przy określonej delcie, która byłaby osiągnięta przy n równym 40, ale nie mniejszym niż 40.

Powinienem dodać, że aby wykonać test t, próbka musi być wystarczająco duża, aby oszacować wariancję lub wariancje.

Michael Chernick
źródło
2
Ważną uwagę stanowi jednak to, że test jest prawidłowy, nawet jeśli dane nie są w przybliżeniu normalne, jeśli wielkość próbki jest wystarczająco duża. Uzasadnienie jest nieco okrągłe (twierdzenie Slutsky'ego + rozkład zbliżający się do normy), a uzasadnienie użycia w teście Z polega jedynie na tym, że jest bardziej zachowawcze w mniejszych próbkach. Ale jest to ważna uwaga, że ​​jeśli podejrzewamy nienormalność, duże próbki mogą nas uratować!
Cliff AB,
1
@CliffAB Przez „prawidłowy” zakładam, że masz na myśli „ma w przybliżeniu odpowiedni poziom istotności, w granicach od n \ do \ infty”. Ale ogólnie ludziom zależy na poziomie błędu większym niż typ I (szczególnie, gdy może on być rozsądnie bliski przy próbkach, które mogą być większe niż podana wielkość próby). Względna asymptotyczna wydajność może być bardzo niska, więc moc przeciw małym efektom w dużych próbkach może być bardzo zła w porównaniu z alternatywnymi wyborami, nawet gdy poziom błędu typu I staje się taki, jaki powinien być.
Glen_b
33

Z całym szacunkiem do niego, nie wie o czym mówi. Test t został zaprojektowany do pracy z małymi próbkami. Tak naprawdę nie ma minimum (być może można powiedzieć co najmniej 3 dla testu t z jedną próbką, IDK), ale masz obawy dotyczące odpowiedniej mocy przy małych próbkach. Być może zechcesz przeczytać informacje na temat pomysłów leżących u podstaw analizy kompromisowej mocy, gdy możliwy rozmiar próbki jest mocno ograniczony, jak w twoim przypadku.

Jeśli chodzi o odniesienie, które dowodzi, że można użyć testu t z małymi próbkami, nie znam jednego i wątpię, by taki istniał. Dlaczego ktokolwiek miałby to udowodnić? Pomysł jest po prostu głupi.

gung
źródło
6
+1 (do ciebie i Michaela). Co ciekawe, nie potrzebujesz nawet dwóch obserwacji, aby wyciągnąć wnioski, jeśli chcesz poczynić zestaw założeń!
Andy W
4
Powodem testu t w małej próbce jest to, że nawet gdy próbki są normalne, jeśli odchylenie standardowe jest nieznane, powszechną rzeczą do zrobienia jest normalizacja poprzez podzielenie przez oszacowanie próbki odchylenia standardowego. W dużych próbkach, które szacują się na tyle blisko odchylenia standardowego populacji, że statystyki testowe będą w przybliżeniu normalne normalne, ale w małej próbce będą miały cięższe ogony niż normalne.
Michael Chernick
5
Rozkład t z n-1 stopniami swobody jest dokładnym rozkładem dla dowolnej wielkości próbki n w ramach hipotezy zerowej, aw małych próbkach należy go stosować zamiast normalnej, która nie jest dobrze przybliżona. Prawdziwy problem z rozmiarem próbki, jak stwierdziliśmy zarówno Gung, jak i moc, to moc. Jeśli chcesz kłócić się z sędzią, że 15 jest wystarczające, musisz określić, jak duża jest różnica, aby można ją było nazwać znaczącą (delta, o której wspomniałem), a następnie dla tej delty musisz pokazać, że moc jest wystarczająca, powiedzmy 0,80 lub więcej .
Michael Chernick
2
@CzarinaFrancoise O n> = 30, patrz stats.stackexchange.com/questions/2541/…
Stéphane Laurent,
2
@gung Oryginalny dokument studenta (1908!) udowadnia, że ​​możesz użyć testu t z małymi próbkami. (Aby uzyskać więcej informacji na ten temat, zapoznaj się z moim rozszerzonym komentarzem do pierwotnego pytania.)
whuber
30

Jak wspomniano w istniejących odpowiedziach, głównym problemem przy małej wielkości próby jest niska moc statystyczna. Istnieją różne ogólne zasady dotyczące dopuszczalnej mocy statystycznej. Niektórzy twierdzą, że 80% mocy statystycznej jest rozsądne, ale ostatecznie więcej znaczy lepiej. Zasadniczo istnieje również kompromis między kosztem pozyskania większej liczby uczestników a korzyścią związaną z uzyskaniem większej mocy statystycznej.

Można oszacować moc statystyczną w teście przy użyciu prostej funkcji w R power.t.test.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Widzimy zatem, że gdyby wielkość efektu populacji była „mała” lub „średnia”, miałbyś niską moc statystyczną (tj. Odpowiednio 11% i 44%). Jeśli jednak wielkość efektu jest duża w populacji, miałbyś coś, co niektórzy określiliby jako „rozsądną” moc (tj. 82%).

Na stronie internetowej Quick-R dostarcza dalszych informacji na temat analizy zasilania przy użyciu R .

Jeromy Anglim
źródło
Niezła odpowiedź! Istnieje również dobre oprogramowanie do obliczania mocy statystycznej o nazwie G * Power .
Enrique,
7

Test t dla dwóch próbek jest ważny, jeśli dwie próbki są niezależnymi prostymi próbami losowymi z rozkładów normalnych o tej samej wariancji, a każda z wielkości próby wynosi co najmniej dwie (aby można było oszacować wariancję populacji). Rozważenia dotyczące mocy są nie ma znaczenia dla kwestii ważności testu. W zależności od wielkości efektu, który chce się wykryć, mała próbka może być nieroztropna, ale mała próbka nie unieważnia testu. Należy również zauważyć, że dla każdej wielkości próby rozkład średniej próby jest Normalny, jeśli rozkład rodzica jest Normalny. Oczywiście, większe próbki są zawsze lepsze, ponieważ zapewniają bardziej precyzyjne oszacowanie parametrów. Twierdzenie o granicy centralnej mówi nam, że średnie próbki są bardziej normalnie rozmieszczone niż poszczególne wartości, ale jak wskazali Casella i Berger, ma ograniczoną przydatność, ponieważ szybkość podejścia do Normalności musi być sprawdzona dla każdego konkretnego przypadku. Poleganie na zasadach praktycznych jest niemądre. Zobacz wyniki zgłoszone w książkach Rand Wilcox.

William Stewart
źródło
5

Chociaż prawdą jest, że rozkład t uwzględnia małą liczebność próby, zakładam, że twój sędzia myślał o trudnościach w ustaleniu, że populacja jest normalnie podzielona, ​​kiedy jedyną dostępną informacją jest stosunkowo niewielka próbka? To nie może być poważny problem z próbką o rozmiarze 15, ponieważ próba jest na tyle duża, że ​​wykazuje pewne oznaki normalnego rozkładu? Jeśli to prawda, to mam nadzieję, że populacja również jest gdzieś prawie normalna i, w połączeniu z Central Limit Theorem, powinno dać ci próbkę środków, które są wystarczająco dobrze zachowane.

Ale wątpię w zalecenia dotyczące stosowania testów t dla małych próbek (takich jak rozmiar czwarty), chyba że normalność populacji można ustalić na podstawie informacji zewnętrznych lub mechanicznego zrozumienia? Z pewnością nie może być w pobliżu wystarczającej ilości informacji w próbce wielkości czwartej, aby mieć jakąkolwiek wskazówkę co do kształtu rozkładu populacji.

tylko ja
źródło
5

Rozważ następujące kwestie z s. 254–256 Sauro, J. i Lewis, JR (2016). Ocena ilościowa doświadczenia użytkownika: praktyczne statystyki dla badań użytkowników, wydanie 2. Cambridge, MA: Morgan-Kaufmann (możesz zajrzeć do środka na https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


CZY POTRZEBUJESZ TESTU NAJMNIEJ 30 UŻYTKOWNIKÓW?

Z JEDNEJ STRONY

Prawdopodobnie większość z nas, którzy wzięli udział w zajęciach ze statystyki wprowadzającej (lub zna kogoś, kto wziął taką klasę), słyszała ogólną zasadę, że aby oszacować lub porównać średnie, twoja próbka powinna wynosić co najmniej 30. Zgodnie z centralnym twierdzeniem o limicie, wraz ze wzrostem wielkości próby rozkład średniej staje się coraz bardziej normalny, niezależnie od normalności rozkładu podstawowego. Niektóre badania symulacyjne wykazały, że dla szerokiej gamy rozkładów (ale nie wszystkich - patrz Bradley, 1978), rozkład średniej staje się prawie normalny, gdy n = 30.

Inną kwestią jest to, że nieco łatwiej jest używać wyników Z niż wyników T, ponieważ wyniki Z nie wymagają użycia stopni swobody. Jak pokazano w tabeli 9.1 i ryc. 9.2, do czasu osiągnięcia około 30 stopni swobody wartość t zbliża się do wartości z. W rezultacie może się wydawać, że nie musisz zajmować się małymi próbkami, które wymagają statystyk małych prób (Cohen, 1990). ...

Z DRUGIEJ STRONY

Gdy koszt próbki jest drogi, jak zwykle w wielu rodzajach badań użytkowników (np. Moderowane testy użyteczności), ważne jest oszacowanie potrzebnej wielkości próbki tak dokładnie, jak to możliwe, przy założeniu, że jest to wartość szacunkowa. Prawdopodobieństwo, że 30 jest dokładnie właściwą próbą dla danego zestawu okoliczności, jest bardzo niskie. Jak pokazano w naszych rozdziałach na temat szacowania wielkości próby, bardziej odpowiednim podejściem jest przyjęcie wzorów do obliczenia poziomów istotności testu statystycznego i, za pomocą algebry do rozwiązania dla n, konwersja ich do wzorów szacowania wielkości próby. Te formuły dostarczają następnie szczegółowych wskazówek na temat tego, co musisz wiedzieć lub oszacować w danej sytuacji, aby oszacować wymaganą wielkość próby.

Pomysł, że nawet przy rozkładzie t (w przeciwieństwie do rozkładu z) musisz mieć próbkę o wielkości co najmniej 30, jest niezgodny z historią rozwoju rozkładu. W 1899 r. William S. Gossett, niedawny absolwent New College w Oksfordzie ze stopniami chemii i matematyki, stał się jednym z pierwszych naukowców, który dołączył do browaru Guinness. „W porównaniu z gigantami swoich czasów opublikował bardzo niewiele, ale jego wkład ma kluczowe znaczenie. … Charakter procesu warzenia, z jego zmiennością temperatury i składników, oznacza, że ​​nie można pobierać dużych próbek w długim okresie ”(Cowles, 1989, s. 108–109).

Oznaczało to, że Gossett nie mógł używać Z-score w swojej pracy - po prostu nie działają dobrze z małymi próbkami. Po przeanalizowaniu braków rozkładu Z dla testów statystycznych z małymi próbkami, opracował niezbędne korekty w zależności od stopni swobody tworzenia własnych tabel t, opublikowanych pod pseudonimem „Student” ze względu na politykę Guinnessa zabraniającą publikacji przez pracowników (Salsburg, 2001). W pracy, która doprowadziła do publikacji tabel, Gossett przeprowadził wczesną wersję symulacji Monte Carlo (Stigler, 1999). Przygotował 3000 kart oznaczonych pomiarami fizycznymi przeprowadzonymi na przestępcach, przetasował je, a następnie rozłożył na 750 grup o wielkości 4 - o wielkości próbki znacznie mniejszej niż 30.

NASZE ZALECENIE

Ta kontrowersja jest podobna do argumentu „wystarczy pięć” w porównaniu z argumentem „osiem to za mało” opisanym w rozdziale 6, ale dotyczy raczej badań podsumowujących niż formatywnych. W przypadku jakichkolwiek badań liczba użytkowników do przetestowania zależy od celu testu i rodzaju danych, które planujesz zgromadzić. „Magiczna liczba” 30 ma pewne empiryczne uzasadnienie, ale naszym zdaniem jest bardzo słaba. Jak widać z licznych przykładów w tej książce, w których wielkości próbek nie są równe 30 (czasami mniej, czasem więcej), nie trzymamy się tej zasady pod dużym względem. Jak opisano w naszym rozdziale dotyczącym wielkości próby do badań podsumowujących, odpowiedni rozmiar próby do badania zależy od rodzaju rozkładu, oczekiwanej zmienności danych, pożądanych poziomów ufności i mocy,

Jak pokazano na ryc. 9.2, przy zastosowaniu rozkładu t z bardzo małymi próbkami (np. Ze stopniami swobody mniejszymi niż 5), bardzo duże wartości t kompensują małe rozmiary próbek w odniesieniu do kontroli błędów typu I ( twierdzenie, że różnica jest znacząca, kiedy tak naprawdę nie jest). Przy tak małych próbkach przedziały ufności będą znacznie szersze niż w przypadku większych próbek. Ale gdy masz do czynienia z więcej niż 5 stopniami swobody, bardzo niewiele jest absolutnych różnic między wartością z a wartością t. Z punktu widzenia podejścia od t do z, zysk powyżej 10 stopni swobody jest bardzo niewielki.

Korzystanie z rozkładu t nie jest dużo bardziej skomplikowane niż z-rozkład (musisz tylko upewnić się, że używasz właściwej wartości dla stopni swobody), a powodem opracowania rozkładu t było umożliwić analizę małych próbek. Jest to tylko jeden z mniej oczywistych sposobów, w jaki praktycy użyteczności korzystają z nauki i praktyki warzenia piwa. Historycy statystyki powszechnie uważają publikację testu t-Studenta przez Gossetta za przełomowe wydarzenie (Box, 1984; Cowles, 1989; Stigler, 1999). W liście do Ronalda A. Fishera (jednego z ojców współczesnych statystyk), zawierającego wczesną kopię tabel t, Gossett napisał: „Prawdopodobnie jesteś jedynym człowiekiem, który z nich skorzysta” (Box, 1978). Gossett miał wiele rzeczy dobrze, ale na pewno się mylił.

BIBLIOGRAFIA

Box, GEP (1984). Znaczenie praktyki w opracowywaniu statystyk. Technometria, 26 (1), 1-8.

Box, JF (1978). Fisher, życie naukowca. Nowy Jork, NY: John Wiley.

Bradley, JV (1978). Krzepkość? British Journal of Mathematical and Statistics Psychology, 31, 144-152.

Cohen, J. (1990). Czego się nauczyłem (do tej pory). American Psychologist, 45 (12), 1304-1312.

Cowles, M. (1989). Statystyka w psychologii: perspektywa historyczna. Hillsdale, NJ: Lawrence Erlbaum.

Salsburg, D. (2001). Herbata smakująca: jak statystyki zrewolucjonizowały naukę w XX wieku. Nowy Jork, NY: WH Freeman.

Stigler, SM (1999). Statystyki na stole: Historia pojęć i metod statystycznych. Cambridge, MA: Harvard University Press.

Jim Lewis
źródło
3

Czarina może zainteresować porównanie wyników swojego parametrycznego testu t z wynikami uzyskanymi podczas testu t bootstrap. Poniższy kod dla Stata 13/1 naśladuje fikcyjny przykład dotyczący testu dwóch prób z nierównymi wariancjami (parametryczny test t: wartość p = 0,1493; test t ładowania początkowego: wartość p = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value
Carlo Lazzaro
źródło
3

Istnieją dwa różne sposoby uzasadnienia zastosowania testu t.

  • Twoje dane są zwykle dystrybuowane i masz co najmniej dwie próbki na grupę
  • W każdej grupie masz duże rozmiary próbek

Jeśli którykolwiek z tych przypadków się utrzyma, test t jest uważany za prawidłowy test. Jeśli więc zechcesz założyć, że twoje dane są normalnie dystrybuowane (czym jest wielu badaczy, którzy zbierają małe próbki), nie masz się czym martwić.

Jednak ktoś może w uzasadniony sposób sprzeciwić się temu, że polegasz na tym założeniu, aby uzyskać wyniki, zwłaszcza jeśli wiadomo, że Twoje dane są wypaczone. Zatem pytanie o wielkość próby wymagane do prawidłowego wnioskowania jest bardzo rozsądne.

Jeśli chodzi o wielkość próbki, niestety nie ma na to solidnej odpowiedzi; im bardziej wypaczone dane, tym większy rozmiar próbki wymagany do uzasadnienia przybliżenia. 15-20 na grupę jest zwykle uważane za rozsądnie duże, ale jak w przypadku większości zasad, istnieją kontrprzykłady: na przykład w zwrotach losów na loterię (gdzie 1 na, powiedzmy, 10 000 000 obserwacji jest ekstremalną wartością odstającą), dosłownie potrzebujesz około 100 000 000 obserwacji przed tymi testami byłoby odpowiednich.

Cliff AB
źródło
1

Zgadzam się co do przydatności testu t-boostrapped. Dla porównania poleciłbym również spojrzenie na metodę bayesowską oferowaną przez Kruschke na stronie http://www.indiana.edu/~kruschke/BEST/BEST.pdf . Ogólnie pytania dotyczące „Ile tematów?” nie można odpowiedzieć, chyba że masz w ręku pojęcie o tym, jaki znaczący rozmiar efektu byłby pod względem rozwiązania problemu. To znaczy, na przykład, jeśli test byłby hipotetycznym badaniem skuteczności nowego leku, wielkość efektu może być minimalną wielkością potrzebną do uzasadnienia nowego leku w porównaniu do starego dla amerykańskiej Agencji ds. Żywności i Leków.

Dziwne w tej i wielu innych dyskusjach jest chęć przyjęcia, że ​​niektóre dane mają jedynie teoretyczny rozkład, jak na przykład bycie Gaussa. Po pierwsze, nie musimy zakładać, możemy to sprawdzić, nawet przy małych próbkach. Po drugie, po co w ogóle zakładać jakiś konkretny rozkład teoretyczny? Dlaczego nie wziąć danych jako empirycznej dystrybucji do siebie?

Oczywiście, w przypadku niewielkich próbek, stwierdzenie, że dane pochodzą z niektórych dystrybucji, jest bardzo przydatne do analizy. Ale parafrazując Bradleya Efrona, robiąc to, właśnie stworzyłeś nieskończoną ilość danych. Czasami może to być w porządku, jeśli twój problem jest odpowiedni. Czasami tak nie jest.

Jan Galkowski
źródło
1

Jeśli chodzi o założenia dla dwóch przykładów; jest tak, że obie próbki są od siebie niezależne, a każda próbka składa się z iid zmiennych normalnych, przy czym dwie próbki mają tę samą średnią i wspólną nieznaną wariancję w ramach hipotezy zerowej.

Istnieje również test t Welch wykorzystujący przybliżenie Satterwaite dla błędu standardowego. Jest to 2 próbny test t, zakładający nierówne wariancje.

Test t Welcha

Pancernik
źródło