Czy mogę ufać znaczącemu wynikowi testu t, jeśli próbka jest mała?

17

Jeśli mój jednostronny wynik testu t jest znaczący, ale wielkość próbki jest niewielka (np. Poniżej 20 lub więcej), czy nadal mogę ufać temu wynikowi? Jeśli nie, w jaki sposób mam postępować i / lub interpretować ten wynik?

Eric
źródło
8
Tylko komentarz, nie chcę dodawać do cudownych komentarzy poniżej; nie ufasz wynikowi testu t, ufasz samej procedurze. Indywidualny wynik jest poprawny lub niepoprawny, ale bez dalszego badania nigdy nie wiadomo, który. Test t zarówno metodologii Fishera, jak i metodologii Pearsona i Neymana jest wiarygodny, jeśli założenia zostaną spełnione. Jeśli ustawisz to będzie cię oszukiwać, przy nieskończonym powtarzaniu, nie więcej niż 5% czasu, być może nieco mniej. Pytanie, które powinieneś zadać, to: „czy spełnione są założenia?” α<.05
Dave Harris

Odpowiedzi:

15

Teoretycznie, jeśli wszystkie założenia testu t są prawdziwe, to nie ma problemu z małą wielkością próby.

W praktyce istnieją pewne niezupełnie prawdziwe założenia, które możemy odrzucić w przypadku dużych próbek, ale mogą powodować problemy w przypadku małych próbek. Czy wiesz, czy dystrybucja bazowa jest zwykle dystrybuowana? Czy wszystkie próbki są niezależne i identycznie rozmieszczone?

Jeśli masz wątpliwości co do ważności testu, alternatywą, z której możesz skorzystać, jest ładowanie systemu. Bootstrapowanie polega na ponownym próbkowaniu z próbki w celu sprawdzenia, jak często hipoteza zerowa jest prawdziwa lub fałszywa. Być może twoja hipoteza zerowa wynosi a twoja wartość p wynosi 0,05, ale ładowanie pokazuje, że średnia próbki wynosi mniej niż zero w 10% przypadków. Oznaczałoby to, że był to przypadek, który spowodował wartość p 0,05 i powinieneś być mniej pewny, że hipoteza zerowa jest fałszywa.μ<0

Hugh
źródło
1
Na przykład, jeśli wiesz, że rozkład leżący u podstaw jest w przybliżeniu rozkładem normalnym, a wszystkie 10 próbek jest mniejsze niż określona wartość, to oczywiście szanse na to, że populacja będzie większa niż ta wartość, wynoszą co najwyżej jeden na 2 ^ 10, lub jeden na tysiąc. Jest wyraźnie szansa 1 na 2 ^ 10, że wszystkie dziesięć próbek z normalnie rozmieszczonej populacji będzie po tej samej stronie średniej. Problem będzie polegał na tym, że uzyskasz wiarygodne wyniki, ale będą one bardzo słabe - na przykład „średni dorosły dorosły mężczyzna prawie na pewno ma od 5 do 7 stóp”.
David Schwartz
Wielkie dzięki za wyjaśnienie i alternatywne podejście. Naprawdę to doceniam! Wielkie dzięki!
Eric
Nie otrzymuję twojej sugestii dotyczącej ładowania. Jeśli ponownie spróbujesz z próbki (która ma p <0,05), możesz oczekiwać, że większość próbek bootstrap będzie miała znaczący wynik, może około 95%, a nie 5 lub 10%. Czy możesz proszę opracować? DW do @Eric.
ameba mówi Przywróć Monikę
3
Mówiąc bardziej ogólnie, bootstrap działa dobrze w przypadku dużych próbek, ale w przypadku małych próbek zasięg może się nieco różnić od nominalnego. Ponadto przy bardzo małej wielkości próbki moc jest niska. Dlatego niekoniecznie jest prawdą, że „test ładowania początkowego” zawsze przewyższa test t-testowy.
ameba mówi Przywróć Monikę
3
@amoeba Naprawdę podoba mi się twój styl korekty. Nie tylko powiedziałeś mi, co jest dobre / złe, wskazałeś dziwną konsekwencję moich pomysłów i zmusiłeś mnie do przemyślenia mojej odpowiedzi i zrozumienia źródła mojego błędu. Więc dziękuję za to! W przeszłości Whuber też mi to robił
Hugh
21

Rzadko powinieneś ufać jednemu znaczącemu wynikowi. Nie powiedziałeś, dlaczego używasz testu jednostronnego zamiast dwustronnego, więc mam nadzieję, że masz dobry powód, aby to zrobić inaczej niż walcząc o to, aby móc uzyskać statystycznie znaczący wynik!

Odkładając to na bok, weź pod uwagę następujące kwestie z p. 261 Sauro, J. i Lewis, JR (2016). Ocena ilościowa doświadczenia użytkownika: praktyczne statystyki dla badań użytkowników, wydanie drugie. Cambridge, MA: Morgan-Kaufmann.


Jak Ronald Fisher zalecił stosowanie wartości p

Kiedy Karl Pearson był wielkim starcem statystycznym, a Ronald Fisher był względnym nowicjuszem, Pearson, najwyraźniej zagrożony pomysłami Fishera i zdolnościami matematycznymi, wykorzystał swój wpływ, aby uniemożliwić Fisherowi publikowanie w najważniejszych czasopismach statystycznych tamtych czasów, Biometrika i Journal Królewskiego Towarzystwa Statystycznego. W związku z tym Fisher opublikował swoje pomysły w wielu innych miejscach, takich jak czasopisma rolnicze i meteorologiczne, w tym kilka artykułów dla Proceedings of the Society for Psychical Research. W jednym z artykułów dla tego ostatniego czasopisma wspomniał o konwencji ustawiania, co obecnie nazywamy dopuszczalnym błędem typu I (alfa), na 0,05, a także, co krytyczne, wspomniał o znaczeniu odtwarzalności w przypadku nieoczekiwanego znaczącego wyniku:

Obserwację uważa się za znaczącą, jeśli rzadko by się ją wydarzyło, gdyby nie istniała prawdziwa przyczyna tego rodzaju, której szukamy. Powszechną praktyką jest ocenianie wyniku znaczącego, jeżeli jest tak dużej wielkości, że byłby wytwarzany przypadkowo nie częściej niż raz na dwadzieścia prób. Jest to arbitralny, ale wygodny poziom znaczenia dla praktycznego badacza, ale nie oznacza to, że pozwala się oszukiwać raz na dwadzieścia eksperymentów. Test istotności mówi mu tylko, co należy zignorować, a mianowicie wszystkie eksperymenty, w których nie uzyskano znaczących wyników. Powinien jedynie twierdzić, że zjawisko jest eksperymentalnie demonstrowalne, gdy wie, jak zaprojektować eksperyment, tak aby rzadko nie przyniósł znaczącego rezultatu. W konsekwencji, pojedyncze znaczące wyniki, których nie wie, jak się rozmnażać, pozostają w napięciu w oczekiwaniu na dalsze dochodzenie. (Fisher, 1929, s. 191)

Odniesienie

Fisher, RA (1929). Metoda statystyczna w badaniach psychicznych. Proceedings of the Society for Psychical Research, 39, 189–192.

Jim Lewis
źródło
2
Fisher opublikował także kilka ważnych artykułów dotyczących szacowania maksymalnego prawdopodobieństwa w The Annals of Eugenics. Jego metoda była często lepsza niż metoda chwil stosowana przez Karla Pearsona. Fisher nazwał swoją metodę wnioskowania fiducial. Później sformalizowali go Jerzy Neyman i Egon Pearson (syn Karla Pearsona).
Michael R. Chernick,
3
Neyman i Pearson nie sformalizowali oficjalnego wniosku Fishera. Opracowali alternatywną metodę.
Michael Lew - przywraca Monikę
5
W czasach Fishera „znaczący” oznaczał, że coś znaczy, a nie, że jest ważny.
David Lane
1
Dziękuję bardzo za bardzo szczegółowe informacje! To naprawdę bardzo mi pomaga!
Eric
16

Wyobraź sobie, że znajdujesz się w sytuacji, w której przeprowadzasz wiele podobnych testów w pewnych okolicznościach, w których pewna część zer jest prawdziwa.

t

(1β)β

Z naszego urny wybierasz eksperymenty (nz nich, powiedzmy) „losowo”, wykonaj je i odrzuć lub nie odrzucaj ich hipotezy. Możemy założyć, że całkowita liczba eksperymentów w urnie (M., powiedzmy) jest wystarczająco duży, aby nie miało znaczenia, że ​​jest to próbkowanie bez zamiany (tzn. chętnie będziemy to przybliżać jako dwumianowy, jeśli zajdzie taka potrzeba), i oba n i M. są na tyle duże, że możemy omówić to, co dzieje się średnio, tak jakby to, czego doświadczamy.

Jaka część twoich odrzuceń będzie „poprawna”?

Oczekiwana całkowita liczba odrzuceń: ntα+n(1-t)(1-β)
Oczekiwana całkowita liczba poprawnych odrzuceń: n(1-t)(1-β)

Ogólny odsetek przypadków, w których odrzucenie było właściwą decyzją: (1t)(1β)tα+(1t)(1β)

Overall proportion of times a rejection was an error: tαtα+(1t)(1β)

For the proportion of correct rejections to be more than a small number you need to avoid the situation where (1t)(1β)tα

Since in our setup a substantial fraction of nulls are true, if 1β is not substantially larger than α (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!

So when your sample size is small (and hence power is low), if a reasonable fraction of our nulls were true, we'd often be making an error when we reject.

The situation isn't much better if almost all our nulls are strictly false -- while most of our rejections will be correct (trivially, since tiny effects are still strictly false), if the power isn't high, a substantial fraction of those rejections will be "in the wrong direction" - we'll conclude the null is false quite often because by chance the sample turned out to be on the wrong side (this may be one argument to use one sided tests - when one sided tests make sense - to at least avoid rejections that make no sense if large sample sizes are hard to get).

We can see that small sample sizes can certainly be a problem.

[This proportion of incorrect rejections is called the false discovery rate]


If you have a notion of likely effect size you're in a better position to judge what an adequate sample size might be. With large anticipated effects, a rejection with a small sample size would not necessarily be a major concern.

Glen_b -Reinstate Monica
źródło
Thanks a lot! That's a point that I can miss very easily. Many thanks for pin pointing that!
Eric
1
Great work. This could be the accepted answer.
Richard Hardy
@Eric the original answer got a bit muddled up in the middle; I have corrected it.
Glen_b -Reinstate Monica
9

Some of Gosset's original work (aka Student), for which he developed the t test, involved yeast samples of n=4 and 5. The test was specifically designed for very small samples. Otherwise, the normal approximation would be fine. That said, Gosset was doing very careful, controlled experiments on data that he understood very well. There's a limit to the number of things a brewery has to test, and Gosset spent his working life at Guinness. He knew his data.

I'm a bit suspicious of your emphasis on one-sided testing. The logic of testing is the same whatever the hypothesis, but I've seen people go with a significant one-sided test when the two-sided was non-significant.

This is what a (upper) one-sided test implies. You are testing that a mean is 0. You do the math and are prepared to reject when T > 2.5. You run your experiment and observe that T=-50,000. You say, "phhhhht", and life goes on. Unless it is physically impossible for the test statistic to sink way below the hypothesized parameter value, and unless you would never take any decision if the test statistic goes in the opposite direction than you expect, you should be using a two-sided test.

Placidia
źródło
6

The main thing you need to worry about is the power of your test. In particular, you might want to do a post-hoc power analysis to determine how likely you are, given your sample size, to identify a true significant effect of a reasonable size. If typical effects are very large, an n of 8 could be totally adequate (as with many experiments in molecular biology). If the effects you are interested in are typically subtle, however (as in many social psychology experiments), an n of thousands might still be underpowered.

This is important because underpowered tests can give very misleading results. For example, if your test is underpowered, even if you find a significant result, you have a relatively high probability of making what Andrew Gelman calls a "Type S" error, i.e., there is a real effect but in the opposite direction, or a "Type M" error, i.e., there is a real effect but the true magnitude is much weaker than what is estimated from the data.

Gelman and Carlin wrote a useful paper about doing post-hoc power analysis that I think applies in your case. Importantly, they recommend using independent data (i.e., not the data you tested, but reviews, modeling, the results of similar experiments, etc.) to estimate a plausible true effect size. By performing power analysis using that plausible estimated true effect size and comparing to your results, you can determine the probability of making a Type S error and the typical "exaggeration ratio," and thus get a better sense for how strong your evidence really is.

Patrick B.
źródło
4

One could say that the whole point of statistical significance is to answer the question "can I trust this result, given the sample size?". In other words, the whole point is to control for the fact that with small sample sizes, you can get flukes, when no real effect exists. The statistical significance, that is to say the p-value, is precisely the answer to the question, "if no real effect existed, how likely would I be to get a fluke as big as this?". If it's very unlikely, that indicates that it's not a fluke.

So the answer is "yes", if the p-value is low, and if you have followed the correct statistical procedures and are satisfying the relevant assumptions, then yes, it is good evidence, and has the same weight as if you'd gotten the same p-value with a very large sample size.

Denziloe
źródło