Test T na nietypowy, gdy N> 50?

77

Dawno temu dowiedziałem się, że rozkład normalny jest konieczny, aby zastosować test T z dwoma próbkami. Dzisiaj koleżanka powiedziała mi, że dowiedziała się, że dla N> 50 rozkład normalny nie był konieczny. Czy to prawda?

Jeśli prawda jest taka ze względu na centralne twierdzenie graniczne?

parzysty
źródło
3
Powiązane pytanie z bardzo dobrą odpowiedzią: Glen_b stats.stackexchange.com/questions/121852/…
Tim

Odpowiedzi:

82

Założenie normalności dla testu t

Rozważ dużą populację, z której możesz pobrać wiele różnych próbek o określonym rozmiarze. (W konkretnym badaniu na ogół zbiera się tylko jedną z tych próbek).

Test t zakłada, że ​​średnie z różnych próbek są zwykle rozmieszczone; nie zakłada się, że populacja jest zwykle podzielona.

Według centralnego twierdzenia granicznego średnie próbek z populacji o skończonej wariancji zbliżają się do rozkładu normalnego bez względu na rozkład populacji. Reguły praktyczne mówią, że środki próbki są w zasadzie normalnie rozmieszczone, o ile wielkość próbki wynosi co najmniej 20 lub 30. Aby test t był ważny na próbce o mniejszym rozmiarze, rozkład populacji musiałby być w przybliżeniu normalny.

Test t jest nieważny dla małych próbek z rozkładów niestandardowych, ale jest ważny dla dużych próbek z rozkładów niestandardowych.

Małe próbki z niestandardowych rozkładów

Jak zauważa poniżej Michael, wielkość próby potrzebna do rozkładu środków w celu przybliżenia normalności zależy od stopnia nienormalności populacji. W przypadku rozkładów w przybliżeniu normalnych nie potrzebujesz tak dużej próbki, jak rozkład bardzo nietypowy.

Oto kilka symulacji, które możesz uruchomić w R, aby to sprawdzić. Po pierwsze, oto kilka rozkładów populacji.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Następne są symulacje próbek z rozkładów populacji. W każdym z tych wierszy „10” oznacza wielkość próby, „100” oznacza liczbę próbek, a funkcja określa rozkład populacji. Wytwarzają histogramy średnich próbek.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Aby test t był prawidłowy, histogramy powinny być prawidłowe.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Przydatność testu t

Muszę zauważyć, że cała wiedza, którą właśnie przekazałem, jest nieco przestarzała; teraz, gdy mamy komputery, możemy zrobić lepiej niż testy t. Jak zauważa Frank, prawdopodobnie chcesz używać testów Wilcoxona wszędzie tam, gdzie uczono cię przeprowadzać test t-testowy.

Thomas Levine
źródło
7
Dobre wyjaśnienie (+1). Dodałbym jednak, że wielkość próby potrzebna do rozkładu środków w celu przybliżenia normalności zależy od stopnia nienormalności populacji. W przypadku dużych próbek nie ma powodu, aby preferować test t nad testem permutacji, który nie przyjmuje żadnych założeń dotyczących rozkładów.
Michael Lew
2
+1, chociaż o ile wiem, test t jest dość odporny na umiarkowane odchylenia od normalności. Interesująca pokrewna dyskusja: stats.stackexchange.com/questions/2492/...
nico
4
dobra odpowiedź, chociaż brakuje jednego drobnego szczegółu: rozkład danych musi mieć skończoną wariancję. Test T jest beznadziejny do porównywania różnic w lokalizacji dwóch rozkładów Cauchy'ego (lub studenta z 2 stopniami swobody), nie dlatego, że jest „nietrwały”, ale ponieważ dla tych rozkładów w próbie znajdują się dodatkowe istotne informacje poza średnimi i standardowe odchylenia, które test t wyrzuca.
probabilityislogic
2
Oprócz tego test t naturalnie daje również przedziały ufności dla badanego parametru. (wciąż głosuję pozytywnie z powodu dwóch pierwszych akapitów, które odnoszą się bezpośrednio do pytania, po prostu zdecydowanie nie zgadzam się z trzecim)
Erik
6
Test t NIE wymaga normalności populacji. Jest to założenie potrzebne, aby statystyki t miały rozkład t-Studentów. Jeśli nie masz normalnej populacji, nie możesz wyrazić statystyki t jako standardowej zmiennej normalnej podzielonej przez pierwiastek zmiennej chi-kwadrat podzielonej przez stopnie swobody. Być może próbujesz powiedzieć, że jeśli pewne warunki są spełnione, na przykład niezbyt duża skośność lub duża próbka, test może być nadal ważny, nawet jeśli populacja nie jest normalna.
toneloy
44

Twierdzenie o granicy centralnej jest mniej przydatne, niż mogłoby się wydawać w tym kontekście. Po pierwsze, jak już ktoś zauważył, nie wiadomo, czy obecny rozmiar próbki jest „wystarczająco duży”. Po drugie, CLT polega bardziej na osiągnięciu pożądanego błędu typu I niż na błędzie typu II. Innymi słowy, test t może być niekonkurencyjny pod względem mocy. Dlatego test Wilcoxona jest tak popularny. Jeśli normalność się utrzymuje, jest to 95% tak samo skuteczne jak test t. Jeśli normalność się nie utrzymuje, może być arbitralnie bardziej wydajna niż test t.

Frank Harrell
źródło
7
(+1) Witamy na stronie, którą cieszę się, że ją znalazłeś. Czekam na Twój udział tutaj.
kardynał
4
(+1) Dobra uwaga na temat Wilcoxona.
whuber
18

Zobacz moją poprzednią odpowiedź na pytanie dotyczące odporności testu t .

W szczególności polecam bawić się apletem onlinestatsbook .

Poniższy obraz oparty jest na następującym scenariuszu:

  • hipoteza zerowa jest prawdziwa
  • dość ostra skośność
  • taki sam rozkład w obu grupach
  • taka sama wariancja w obu grupach
  • wielkość próby na grupę 5 (tj. znacznie mniej niż 50 według twojego pytania)
  • Nacisnąłem przycisk 10000 symulacji około 100 razy, aby uzyskać ponad milion symulacji.

Uzyskana symulacja sugeruje, że zamiast 5% błędów typu I, otrzymywałem tylko 4,5% błędów typu I.

To, czy uważasz to za solidne, zależy od twojej perspektywy.

wprowadź opis zdjęcia tutaj

Jeromy Anglim
źródło
4
+1 dobre punkty. Moc z testu t z wypaczone alternatyw, choć może pogorszyć surowo (do punktu, w którym jest zasadniczo zera nawet do ogromnych rozmiarów efektu).
whuber
6

h=0.24999

p=1041p

edit : duh, per @ whuberer catch w komentarzu, podany przeze mnie przykład nie miał średniej zero, więc testowanie średniej wartości zero nie ma nic wspólnego ze współczynnikiem typu I.

Ponieważ przykład loterii często ma zerowe odchylenie standardowe próbki, dławiki w teście. Zamiast tego podam przykładowy kod wykorzystujący rozkład Lamberta W x Gaussa Goerga . Rozkład, którego tu używam, ma odchylenie około 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Ten kod podaje empiryczną częstotliwość odrzucania na poziomie nominalnym 0,05 dla różnych wielkości próbek. W przypadku próbki o wielkości 50 wskaźnik empiryczny wynosi 0,40 (!); dla wielkości próby 250, 0,29; dla wielkości próby 1000, 0,21; dla wielkości próby 2000, 0,18. Najwyraźniej w teście t dla jednej próbki występuje zniekształcenie.

shabbychef
źródło
p=0
1

Twierdzenie o granicy centralnej ustala (w wymaganych warunkach), że licznik statystyki t jest asymptotycznie normalny. Statystyka t ma również mianownik. Aby mieć rozkład t, potrzebujesz mianownika, który będzie niezależny i pierwiastek kwadratowy z chi-kwadrat-na-jego-df.

I wiemy, że to nie będzie niezależne (to charakteryzuje normalność!)

Twierdzenie Słuckiego w połączeniu z CLT dałoby ci, że statystyka t jest asymptotycznie normalna (ale niekoniecznie w bardzo użytecznym tempie).

Jakie twierdzenie wykazałoby, że statystyka t jest w przybliżeniu rozkładem t, gdy występuje nienormalność i jak szybko się pojawia? (Oczywiście, w końcu t- również zbliży się do normy, ale zakładamy, że przybliżenie do innego przybliżenia będzie lepsze niż zwykłe przybliżenie normalne ...)


t

n

Glen_b
źródło
3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
1
Niestety, rozróżnienie między nieskorelowanym i niezależnym jest istotne, jeśli mamy skończyć na rozkładzie T.
Glen_b
0

Tak, centralne twierdzenie graniczne mówi nam, że to prawda. Tak długo, jak unikasz cech bardzo gruboogoniastych, nienormalność nie stwarza problemów w próbkach od średnich do dużych.

Oto pomocny artykuł przeglądowy;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Test Wilcoxona (wspomniany przez innych) może mieć straszliwą moc, gdy alternatywą nie jest zmiana lokalizacji oryginalnej dystrybucji. Ponadto sposób pomiaru różnic między rozkładami nie jest przechodni.

Gość
źródło
Ciekawe informacje o Wilcoxon. Jednak test t ma podobne trudności: jest szczególnie zły w wykrywaniu zmian, którym towarzyszy zwiększona wariancja. Trochę o przechodniości wydaje się być głównie ciekawostką w obecnym kontekście; trudno jest dostrzec, jak ma to związek z pierwotnym testem hipotez lub jego interpretacją. (Ale może nieprzeźroczystość może stać się ważna w ustawieniach ANOVA lub wielokrotnych porównań.)
whuber
Nierówny test t wariancji (który jest domyślny w niektórych programach) nie ma problemu z heteroskedastycznością.
gość
W odniesieniu do przechodniości; zgłaszanie średnich próbek lub różnic średnich (co jest naturalne przy zastosowaniu testu t) daje czytelnikowi coś, co mogą wziąć pod uwagę przy próbkowaniu z innych populacji. Brak przechodniości testu Wilcoxona oznacza, że ​​takie podejście nie ma takiego analogu; wykorzystanie szeregów danych jest bardzo ograniczonym podejściem.
gość
1
(1) Test Satterthwaite-Welch (nierówna wariancja) nie pokonał straty mocy, o której mówiłem (chociaż może trochę pomóc). (2) Myślę, że jesteś ekstremalny w określaniu rang jako „ograniczonych”. W swojej odpowiedzi @Frank Harrell odniósł się do badań pokazujących, jak test Wilcoxona utrzymuje wysoką wydajność w wielu ustawieniach: pokazuje to, jak używanie szeregów jest zarówno skuteczne, jak i bardziej elastyczne, nie bardziej ograniczone, w porównaniu do testów t.
whuber
(1) Nie, ale daje właściwy poziom błędu Typu I w próbkach od średnich do dużych (2) Dzięki, ale z szacunkiem się nie zgadzam. Korzystanie z testów t nad Wilcoxonem znacznie ułatwia wypełnienie luki między testowaniem a wykorzystaniem przedziałów ufności. Jeśli ktoś chce tylko testować i nigdy nie patrzy poza dwie grupy w badaniu, Wilcoxon oczywiście ma sytuacje, w których działa dobrze. Ale często nie chcemy przeprowadzać tylko testów i chcemy pomóc użytkownikom uogólnić wyniki na inne sytuacje; test Wilcoxona nie jest wtedy pomocny.
gość
0

O zastosowaniu testu Wilcoxona-Manna-Whitneya jako alternatywy Polecam artykuł Test Wilcoxona-Mana-Whitneya pod kontrolą

Jako test średnich lub median test Wilcoxona – Manna – Whitneya (WMW) może być poważnie nieporuszony w przypadku odchyleń od modelu czystego przesunięcia.

Oto rekomendacje autorów artykułu:

Transformacja rang może zmieniać środki, odchylenia standardowe i nachylenia dwóch próbek w różny sposób. Jedyną sytuacją, w której transformacja rang jest gwarantowana, aby osiągnąć korzystny efekt, jest wtedy, gdy rozkłady są identyczne, a wielkości próbek są równe. W przypadku odchyleń od tych raczej ścisłych założeń wpływ transformacji rang na momenty próbne jest nieprzewidywalny. W badaniu symulacyjnym pracy test WMW został porównany z testem Flignera-Policello (FP), testem Brunnera-Munzela (BM), testem dwóch prób T (T), testem Welcha U (U), oraz test Welch U na szeregach (RU). Cztery testy oparte na rangach (WMW, FP, BM i RU) działały podobnie, chociaż test BM był często nieco lepszy niż inne. Gdy rozmiary próbek były równe, testy parametryczne (T i U) były lepsze od testów opartych na rangach pod hipotezą zerową o równych średnich, ale nie pod hipotezą zerową o równych medianach. Gdy rozmiary próbek były nierówne, testy BM, RU i U działały najlepiej. W przypadku kilku ustawień niewielkie zmiany właściwości populacji doprowadziły do ​​dużych zmian w wydajności testów. Podsumowując, przybliżony test WMW na dużej próbce może być kiepską metodą porównywania średnich lub median dwóch populacji, chyba że dwa rozkłady mają takie same kształty i równe skale. Problem ten wydaje się także w różnym stopniu dotyczyć dokładnego testu WMW, testu FP, testu BM i testu Welch U na szeregach. Korzystając z testu WMW, autorzy zalecają dokładne zbadanie właściwości ocenianych próbek pod kątem oznak skośności i niejednorodności wariancji.

użytkownik2310909
źródło