Jak wytrzymały jest test t niezależnych próbek, gdy rozkłady próbek są nienormalne?

24

Czytałem, że test t jest „dość solidny”, gdy rozkłady próbek odbiegają od normalności. Oczywiście ważny jest rozkład próbkowania różnic. Mam dane dla dwóch grup. Jedna z grup jest mocno wypaczona względem zmiennej zależnej. Wielkość próby jest dość mała dla obu grup (n = 33 w jednej i 45 w drugiej). Czy powinienem założyć, że w tych warunkach mój test t będzie odporny na naruszenie założenia normalności?

Archeopteryx
źródło
3
„Oczywiście ważny jest rozkład próbek różnic” - Różnice w czym? Kusiło mnie, aby zedytować to pytanie, ponieważ obawiam się, że jest to mylące dla przyszłych czytelników (i styczne do głównej kwestii). Moją pierwszą myślą było błędne odniesienie do sparowanego testu t , w którym zakładamy, że różnice między parami są normalne, ale nie dotyczy to niezależnego testu próbek. Nie mamy nawet par do różnicy! Być może zamierzona jest „różnica środków”? Reszta Q rozważa normalność dwóch próbek, a nie różnice.
Silverfish
Pytanie, jak odporny jest test T na takie naruszenia, jest ważne i uzasadnione. Ale pokrewnym problemem jest to, że sprawdzanie najpierw naruszenia danych, a dopiero potem podejmowanie decyzji o zastosowaniu testu t lub innego testu, nie jest zalecane. Taka wieloetapowa procedura ma niepewne cechy operacyjne. Zobacz ten wątek: Podstawowa metoda wyboru między testem t lub nieparametrycznym, np. Wilcoxon w małych próbkach
Silverfish,
Jakie jest wiarygodne źródło? (Rozumiem, że oboje zgodzilibyśmy się, że nie ma czegoś takiego jak oficjalne źródło). Czy patrzymy na stabilność poziomu, czy też moc? A jeśli „także moc” ... o jakiej alternatywie mówimy ?
Glen_b
@Glen_b Przepraszamy, wiadomość o nagrodzie „oficjalne źródła” jest znacznie większa dla StackOverflow! Po prostu uważam, że ten wątek jest praktycznie ważny (plus dość duży ruch i słaba na Wikipedii), aby zasługiwać na kilka cytatów. Szablon nagrody „odpowiedź kanoniczna” byłby niewłaściwy, ponieważ odpowiedź Petera Floma wyraźnie pokazuje. Mam wrażenie, że istnieje „wspólny zasób wiedzy” na ten temat - gdybym zapytano go o to Q z ręki, moja lista wyglądałaby podobnie do listy Dallala (dodałbym kurtozę, ale nie ryzykowałem takiej samej wielkości próby chroni vs ogólna nienormalność)
Silverfish
@Glen_b Twoja odpowiedź wydobywa podobne żyły, więc wydaje się, że istnieją pewne podstawowe punkty powszechnie znane / akceptowane. Mój stopień naukowy obejmował założenia, ale nie konsekwencje naruszenia: moją wiedzę czerpię z różnych źródeł, rozproszonych drobiazgów (książki typu „statystyki dla psychologów” mogą zwracać większą uwagę na konsekwencje niż wiele tekstów teorii statystyk) - w przeciwnym razie opublikowałbym odpowiedź nie jest nagrodą! Jeśli ktoś zna porządne jednostronicowe podsumowanie w dobrym podręczniku, to by mi dobrze. Jeśli jest to kilka artykułów z wynikami symulacji, to też dobrze. Cokolwiek przyszli czytelnicy mogą odnosić się i cytować.
Silverfish,

Odpowiedzi:

16

Odpowiedzi na pytania dotyczące solidności są bardzo trudne - ponieważ założenia mogą zostać naruszone na wiele sposobów i pod każdym względem w różnym stopniu. Prace symulacyjne mogą obejmować jedynie niewielką część możliwych naruszeń.

Biorąc pod uwagę stan obliczeń, myślę, że często warto poświęcić czas zarówno na test parametryczny, jak i nieparametryczny, jeśli oba są dostępne. Następnie możesz porównać wyniki.

Jeśli jesteś naprawdę ambitny, możesz nawet wykonać test permutacji.

Co jeśli Alan Turing wykonał swoją pracę, zanim Ronald Fisher to zrobił? :-).

Peter Flom - Przywróć Monikę
źródło
1
Peter, zainspirowałeś mnie do napisania fikcji historycznej, aby dokładnie odpowiedzieć na to pytanie!
Sycorax mówi Przywróć Monikę
12

@PeterFlom uderzył w gwóźdź swoim pierwszym zdaniem.

Postaram się przedstawić ogólne podsumowanie badań, które widziałem (jeśli chcesz linki, może to chwilę potrwać):

Ogólnie rzecz biorąc, test dwóch próbek t jest dość odporny na moc w stosunku do symetrycznej nienormalności (na prawdziwą stopę błędów typu I w pewnym stopniu wpływa kurtoza, na moc ma to głównie wpływ).

Gdy dwie próbki są lekko przekrzywione w tym samym kierunku, jednostronny test t nie jest już bezstronny. Statystyka t jest przekrzywiona przeciwnie do rozkładu i ma znacznie większą moc, jeśli test jest w jednym kierunku niż w innym. Jeśli są przekrzywione w przeciwnych kierunkach, poziom błędu typu I może być poważnie zmieniony.

Ciężkie pochylenie może mieć większy wpływ, ale ogólnie mówiąc, umiarkowane pochylenie z dwustronnym testem nie jest takie złe, jeśli nie masz nic przeciwko temu, że test w istocie przydziela więcej mocy w jednym kierunku niż w drugim.

Krótko mówiąc - dwustronny test t dla dwóch próbek jest dość odporny na tego rodzaju rzeczy, jeśli można tolerować pewien wpływ na poziom istotności i pewne łagodne odchylenie.

Istnieje jednak wiele, wiele sposobów nienormalnych dystrybucji, które nie są uwzględnione w tych komentarzach.

Glen_b - Przywróć Monikę
źródło
Nie jestem pewien, czy słuszne jest stwierdzenie, że jest wystarczająco mocny! Jest rozsądnie odporny na poziom, poziom istotności będzie z grubsza poprawny, ale na przykład testy wilcoxona mogą mieć znacznie wyższą moc dla alternatyw stosunkowo rozsądnych, aby były trudne do wykrycia. Zależy to również od czynników, takich jak to, czy w każdej grupie jest taka sama liczba obserwacji: solidność jest znacznie bardziej delikatna w nierównym przypadku!
kjetil b halvorsen
1
@kjetilbhalvorsen Badania, które widziałem - w tym niektóre symulacje, które sam przeprowadziłem (i nie przyglądałem się temu przez dłuższy czas; być może widziałeś coś, czego nie widziałem), większość wpływu na moc wydawała się głównie w celu podnoszenia poziomu w górę i w dół (co nie wpłynęło na Wilcoxona). Biorąc pod uwagę ogólnie dobre właściwości mocy Wilcoxona w tych okolicznościach (szczególnie przy ciężkich ogonach), wystarczy, aby Wilcoxon wygrał moc - jeśli dostosujesz poziomy tak, aby były podobne, zaskoczyło mnie, jak dobrze t- często zrobił.
Glen_b
7

@PeterFlom wspomniał już, że badania symulacyjne nigdy nie mogą obejmować wszystkich scenariuszy i możliwości, a zatem nie mogą prowadzić do ostatecznej odpowiedzi. Jednak nadal uważam, że przydatne jest zbadanie takiego problemu poprzez przeprowadzenie niektórych symulacji (jest to również dokładnie taki rodzaj ćwiczenia, z którego lubię korzystać, przedstawiając studentom ideę badań symulacyjnych Monte Carlo). Wypróbujmy to. Użyję do tego R.

Kod

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Wyjaśnienie

  1. Najpierw ustawiamy rozmiar grupy ( n1i n2), prawdziwą grupę oznacza ( mu1i mu2) oraz prawdziwe odchylenia standardowe ( sd1i sd2).

  2. Następnie określamy liczbę iteracji do uruchomienia i konfigurujemy wektory do przechowywania wartości p.

  3. Następnie symuluję dane w 5 scenariuszach:

    1. Oba rozkłady są normalne.
    2. Obie dystrybucje są pochylone w prawo.
    3. Obie dystrybucje są pochylone w lewo.
    4. Pierwszy rozkład jest przekrzywiony w lewo, drugi w prawo.
    5. Pierwszy rozkład jest przekrzywiony w prawo, drugi w lewo.

    Zauważ, że używam rozkładów chi-kwadrat do generowania przekrzywionych rozkładów. Z jednym stopniem swobody są to mocno wypaczone rozkłady. Ponieważ prawdziwa średnia i wariancja rozkładu chi-kwadrat z jednym stopniem swobody wynosi odpowiednio 1 i 2 ( patrz wikipedia ), przeskalowuję te rozkłady, aby najpierw miały średnią 0 i odchylenie standardowe 1, a następnie przeskalować je, aby mieć pożądana prawdziwa średnia i odchylenie standardowe (można to zrobić w jednym kroku, ale robienie tego w ten sposób może być jaśniejsze).

  4. W każdym przypadku stosuję test t (wersja Welcha - oczywiście można również wziąć pod uwagę wersję Studenta, która zakłada równe wariancje w dwóch grupach) i zapisuję wartość p do wcześniej ustawionych wektorów.

  5. Wreszcie, gdy wszystkie iteracje są zakończone, obliczam dla każdego wektora, jak często wartość p jest równa lub mniejsza niż 0,05 (tj. Test jest „znaczący”). Jest to współczynnik odrzuceń empirycznych.

Niektóre wyniki

  1. Symulacja dokładnie tak, jak opisano powyżej, daje:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=.05

  2. Jeśli zmienimy kod na mu1 <- .5, otrzymamy:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Tak więc, w porównaniu z przypadkiem, w którym oba rozkłady są normalne (zgodnie z założeniem testu), moc faktycznie wydaje się nieco wyższa, gdy skośność jest w tym samym kierunku! Jeśli jesteś tym zaskoczony, możesz powtórzyć to kilka razy (oczywiście za każdym razem uzyskując nieco inne wyniki), ale wzór pozostanie.

    Należy pamiętać, że należy zachować ostrożność przy interpretacji wartości mocy empirycznej w dwóch scenariuszach, w których skośność jest w przeciwnych kierunkach, ponieważ poziom błędu typu I nie jest całkiem nominalny (w skrajnym przypadku, przypuśćmy, że zawsze odrzucam bez względu na to, jakie dane pokaż; wtedy zawsze będę miał test z maksymalną mocą, ale oczywiście test ma również dość zawyżony poziom błędu Typu I).

Można rozpocząć badanie zakresu wartości mu1(i mu2- ale tak naprawdę istotna jest różnica między nimi) i, co ważniejsze, rozpocząć zmianę prawdziwych odchyleń standardowych dwóch grup (tj. sd1I sd2), a zwłaszcza uczynić je nierównymi. Trzymałem się również wielkości próbek wspomnianych przez PO, ale oczywiście można to również dostosować. Skośność może oczywiście przybierać wiele innych form niż to, co widzimy w rozkładzie kwadratowym z jednym stopniem swobody. Nadal uważam, że podejście w ten sposób jest przydatne, mimo że nie może dać jednoznacznej odpowiedzi.

Wolfgang
źródło
2
Skoro mamy obecnie szereg solidnych metod półparametrycznych, dlaczego ta dyskusja jest tak cenna?
Frank Harrell,
(+1) Myślę, że warto uwzględnić przypadek, w którym jedna próbka została pobrana z przekrzywionej populacji, a druga nie, ponieważ tak właśnie sądził OP w odniesieniu do ich danych. Ale miło jest widzieć odpowiedź z wyraźnym kodem. (Nieznaczne uogólnienie pozwoliłoby czytelnikowi zbadać, jak dobrze solidne metody są w porównaniu z tradycyjnym testem t, co jest przydatnym ćwiczeniem pedagogicznym, jeśli próbujesz nauczyć kogoś niebezpieczeństwa stosowania testu, którego założenia zostały naruszone. .)
Silverfish,
2

W twojej sytuacji test t będzie prawdopodobnie solidny pod względem poziomu błędu typu I, ale nie poziomu błędu typu II. Prawdopodobnie uzyskałbyś więcej mocy poprzez: a) test Kruskala-Wallisa lub b) transformację normalizującą przed testem t.

Opieram ten wniosek na dwóch badaniach Monte Carlo. W pierwszym ( Khan i Rayner, 2003 ) przekrzywienie i kurtoza zostały pośrednio zmanipulowane za pomocą parametrów rodziny dystrybucji g-i-k, i uzyskana moc została zbadana. Co ważne, moc testu Kruskala-Wallisa była mniej uszkodzona przez nienormalność, szczególnie dla n> = 15.

Kilka ostrzeżeń / kwalifikacji dotyczących tego badania: Moc była często niszczona przez wysoką kurtozę, ale mniej na nią wpływał pochyłość. Na pierwszy rzut oka ten wzór może wydawać się mniej istotny w twojej sytuacji, biorąc pod uwagę, że zauważyłeś problem z przekrzywieniem, a nie kurtozą. Założę się jednak, że nadmiar kurtozy jest również ekstremalny w twoim przypadku. Pamiętaj, że nadmiar kurtozy będzie co najmniej tak wysoki jak pochylenie ^ 2 - 2. (Niech nadmiar kurtozy będzie równy czwartemu znormalizowanemu momentowi minus 3, tak aby nadmiar kurtozy = 0 dla rozkładu normalnego.) Zauważ też, że Khan i Rayner ( 2003) zbadali ANOVA z 3 grupami, ale ich wyniki prawdopodobnie uogólnią się na test t dla dwóch próbek.

Drugie istotne badanie ( Beasley, Erikson i Allison, 2009) zbadał zarówno błędy typu I, jak i typy II przy różnych rozkładach niestandardowych, takich jak chi-kwadrat (1) i Weibull (1, 5). W przypadku próbek o wielkości co najmniej 25 test t odpowiednio kontrolował poziom błędu typu I na poziomie lub poniżej nominalnego poziomu alfa. Moc była jednak najwyższa w teście Kruskala-Wallisa lub w odwrotnej normalnej transformacji opartej na rangie (wyniki Bloma) zastosowanej przed testem t. Beasley i współpracownicy generalnie opowiadali się przeciwko podejściu normalizującemu, ale należy zauważyć, że podejście normalizujące kontrolowało poziom błędu typu I dla n> = 25, a jego moc czasami nieznacznie przekraczała moc testu Kruskala-Wallisa. Oznacza to, że podejście normalizujące wydaje się obiecujące dla twojej sytuacji. Szczegółowe informacje można znaleźć w tabelach 1 i 4 w ich artykule.

Referencje:

Khan, A., i Rayner, GD (2003) . Odporność na nienormalność typowych testów dla problemu lokalizacji wielu próbek. Journal of Applied Mathematics and Decision Sciences, 7 , 187-206.

Beasley, TM, Erickson, S. i Allison, DB (2009) . Coraz częściej stosuje się odwrotne transformacje normalne oparte na rangach, ale czy są one uzasadnione? Behavioural Genetics, 39 , 580-595.

Anthony
źródło
(nadmiar) kurtozaukośnie2)-2)
To wydaje się być pytaniem godnym własnego wątku. Być może martwisz się, że nadmiar kurtozy będzie tendencyjnie obniżany w małych próbkach? Oczywiście tak było również w powyższych badaniach symulacyjnych, a kurtoza nadal powodowała niską moc w teście t w takich sytuacjach. Twoje pytanie wskazuje na bardziej ogólne ograniczenie większości badań Monte Carlo: wnioski są często oparte na cechach populacji, cechach, których badacz zastosowany nie może zaobserwować. Bardziej przydatne byłoby przewidywanie mocy względnej na podstawie pochylenia próbki, kurtozy itp.
Anthony
Zadałem
Anthony
0

Przede wszystkim, jeśli założymy, że rozkład dwóch próbek jest inny, upewnij się, że używasz wersji t-testu Welcha, która zakłada nierówne wariancje między grupami. Spowoduje to przynajmniej próbę uwzględnienia niektórych różnic, które występują z powodu dystrybucji.

Jeśli spojrzymy na wzór testu t Welcha:

t=X¯1-X¯2)sX¯1-X¯2)

sX¯1-X¯2)

sX¯1-X¯2)=s12)n1+s2)2)n2)

widzimy, że za każdym razem istnieje s wiemy wariancja jest brane pod uwagę. Wyobraźmy sobie, że dwie wariancje są w rzeczywistości takie same, ale jedna jest wypaczona, co prowadzi do innego oszacowania wariancji. Jeśli to oszacowanie wariancji nie jest w rzeczywistości reprezentatywne dla twoich danych ze względu na pochylenie, to faktycznie efekt promowania będzie w istocie pierwiastkiem kwadratowym tego błędu podzielonego przez liczbę punktów danych użytych do jego obliczenia. Zatem efekt złych estymatorów wariancji jest nieco tłumiony przez pierwiastek kwadratowy i wyższą n, i prawdopodobnie dlatego konsensus jest taki, że pozostaje on solidnym testem.

Inną kwestią rozkładów skośnych jest to, że wpłynie to również na obliczenia średnie, i prawdopodobnie tam są prawdziwe problemy naruszeń założeń testowych, ponieważ środki są stosunkowo wrażliwe na przekrzywienie. Odporność testu można z grubsza określić, obliczając różnicę średnich w porównaniu do różnicy w medianach (jako idea). Być może możesz nawet spróbować zastąpić różnicę średnich różnicą w medianach w teście t jako bardziej solidną miarę (jestem pewien, że ktoś o tym rozmawiał, ale nie mogłem znaleźć czegoś w Google na tyle szybko, aby można było utworzyć link).

Sugerowałbym również przeprowadzenie testu permutacji, jeśli wszystko, co robisz, to test t. Test permutacji jest testem dokładnym, niezależnym od założeń dotyczących dystrybucji. Co najważniejsze, testy permutacji i test t doprowadzą do identycznych wyników, jeśli zostaną spełnione założenia testu parametrycznego . Dlatego miarą niezawodności, której szukasz, może być 1 - różnica między permutacją a wartościami t-testu t, gdzie wynik 1 oznacza doskonałą wytrzymałość, a 0 oznacza, że ​​nie jest wcale.

Mensen
źródło