Czytałem, że test t jest „dość solidny”, gdy rozkłady próbek odbiegają od normalności. Oczywiście ważny jest rozkład próbkowania różnic. Mam dane dla dwóch grup. Jedna z grup jest mocno wypaczona względem zmiennej zależnej. Wielkość próby jest dość mała dla obu grup (n = 33 w jednej i 45 w drugiej). Czy powinienem założyć, że w tych warunkach mój test t będzie odporny na naruszenie założenia normalności?
t-test
assumptions
normality-assumption
robust
Archeopteryx
źródło
źródło
Odpowiedzi:
Odpowiedzi na pytania dotyczące solidności są bardzo trudne - ponieważ założenia mogą zostać naruszone na wiele sposobów i pod każdym względem w różnym stopniu. Prace symulacyjne mogą obejmować jedynie niewielką część możliwych naruszeń.
Biorąc pod uwagę stan obliczeń, myślę, że często warto poświęcić czas zarówno na test parametryczny, jak i nieparametryczny, jeśli oba są dostępne. Następnie możesz porównać wyniki.
Jeśli jesteś naprawdę ambitny, możesz nawet wykonać test permutacji.
Co jeśli Alan Turing wykonał swoją pracę, zanim Ronald Fisher to zrobił? :-).
źródło
@PeterFlom uderzył w gwóźdź swoim pierwszym zdaniem.
Postaram się przedstawić ogólne podsumowanie badań, które widziałem (jeśli chcesz linki, może to chwilę potrwać):
Ogólnie rzecz biorąc, test dwóch próbek t jest dość odporny na moc w stosunku do symetrycznej nienormalności (na prawdziwą stopę błędów typu I w pewnym stopniu wpływa kurtoza, na moc ma to głównie wpływ).
Gdy dwie próbki są lekko przekrzywione w tym samym kierunku, jednostronny test t nie jest już bezstronny. Statystyka t jest przekrzywiona przeciwnie do rozkładu i ma znacznie większą moc, jeśli test jest w jednym kierunku niż w innym. Jeśli są przekrzywione w przeciwnych kierunkach, poziom błędu typu I może być poważnie zmieniony.
Ciężkie pochylenie może mieć większy wpływ, ale ogólnie mówiąc, umiarkowane pochylenie z dwustronnym testem nie jest takie złe, jeśli nie masz nic przeciwko temu, że test w istocie przydziela więcej mocy w jednym kierunku niż w drugim.
Krótko mówiąc - dwustronny test t dla dwóch próbek jest dość odporny na tego rodzaju rzeczy, jeśli można tolerować pewien wpływ na poziom istotności i pewne łagodne odchylenie.
Istnieje jednak wiele, wiele sposobów nienormalnych dystrybucji, które nie są uwzględnione w tych komentarzach.
źródło
@PeterFlom wspomniał już, że badania symulacyjne nigdy nie mogą obejmować wszystkich scenariuszy i możliwości, a zatem nie mogą prowadzić do ostatecznej odpowiedzi. Jednak nadal uważam, że przydatne jest zbadanie takiego problemu poprzez przeprowadzenie niektórych symulacji (jest to również dokładnie taki rodzaj ćwiczenia, z którego lubię korzystać, przedstawiając studentom ideę badań symulacyjnych Monte Carlo). Wypróbujmy to. Użyję do tego R.
Kod
Wyjaśnienie
Najpierw ustawiamy rozmiar grupy (
n1
in2
), prawdziwą grupę oznacza (mu1
imu2
) oraz prawdziwe odchylenia standardowe (sd1
isd2
).Następnie określamy liczbę iteracji do uruchomienia i konfigurujemy wektory do przechowywania wartości p.
Następnie symuluję dane w 5 scenariuszach:
Zauważ, że używam rozkładów chi-kwadrat do generowania przekrzywionych rozkładów. Z jednym stopniem swobody są to mocno wypaczone rozkłady. Ponieważ prawdziwa średnia i wariancja rozkładu chi-kwadrat z jednym stopniem swobody wynosi odpowiednio 1 i 2 ( patrz wikipedia ), przeskalowuję te rozkłady, aby najpierw miały średnią 0 i odchylenie standardowe 1, a następnie przeskalować je, aby mieć pożądana prawdziwa średnia i odchylenie standardowe (można to zrobić w jednym kroku, ale robienie tego w ten sposób może być jaśniejsze).
W każdym przypadku stosuję test t (wersja Welcha - oczywiście można również wziąć pod uwagę wersję Studenta, która zakłada równe wariancje w dwóch grupach) i zapisuję wartość p do wcześniej ustawionych wektorów.
Wreszcie, gdy wszystkie iteracje są zakończone, obliczam dla każdego wektora, jak często wartość p jest równa lub mniejsza niż 0,05 (tj. Test jest „znaczący”). Jest to współczynnik odrzuceń empirycznych.
Niektóre wyniki
Symulacja dokładnie tak, jak opisano powyżej, daje:
Jeśli zmienimy kod na
mu1 <- .5
, otrzymamy:Tak więc, w porównaniu z przypadkiem, w którym oba rozkłady są normalne (zgodnie z założeniem testu), moc faktycznie wydaje się nieco wyższa, gdy skośność jest w tym samym kierunku! Jeśli jesteś tym zaskoczony, możesz powtórzyć to kilka razy (oczywiście za każdym razem uzyskując nieco inne wyniki), ale wzór pozostanie.
Należy pamiętać, że należy zachować ostrożność przy interpretacji wartości mocy empirycznej w dwóch scenariuszach, w których skośność jest w przeciwnych kierunkach, ponieważ poziom błędu typu I nie jest całkiem nominalny (w skrajnym przypadku, przypuśćmy, że zawsze odrzucam bez względu na to, jakie dane pokaż; wtedy zawsze będę miał test z maksymalną mocą, ale oczywiście test ma również dość zawyżony poziom błędu Typu I).
Można rozpocząć badanie zakresu wartości
mu1
(imu2
- ale tak naprawdę istotna jest różnica między nimi) i, co ważniejsze, rozpocząć zmianę prawdziwych odchyleń standardowych dwóch grup (tj.sd1
Isd2
), a zwłaszcza uczynić je nierównymi. Trzymałem się również wielkości próbek wspomnianych przez PO, ale oczywiście można to również dostosować. Skośność może oczywiście przybierać wiele innych form niż to, co widzimy w rozkładzie kwadratowym z jednym stopniem swobody. Nadal uważam, że podejście w ten sposób jest przydatne, mimo że nie może dać jednoznacznej odpowiedzi.źródło
W twojej sytuacji test t będzie prawdopodobnie solidny pod względem poziomu błędu typu I, ale nie poziomu błędu typu II. Prawdopodobnie uzyskałbyś więcej mocy poprzez: a) test Kruskala-Wallisa lub b) transformację normalizującą przed testem t.
Opieram ten wniosek na dwóch badaniach Monte Carlo. W pierwszym ( Khan i Rayner, 2003 ) przekrzywienie i kurtoza zostały pośrednio zmanipulowane za pomocą parametrów rodziny dystrybucji g-i-k, i uzyskana moc została zbadana. Co ważne, moc testu Kruskala-Wallisa była mniej uszkodzona przez nienormalność, szczególnie dla n> = 15.
Kilka ostrzeżeń / kwalifikacji dotyczących tego badania: Moc była często niszczona przez wysoką kurtozę, ale mniej na nią wpływał pochyłość. Na pierwszy rzut oka ten wzór może wydawać się mniej istotny w twojej sytuacji, biorąc pod uwagę, że zauważyłeś problem z przekrzywieniem, a nie kurtozą. Założę się jednak, że nadmiar kurtozy jest również ekstremalny w twoim przypadku. Pamiętaj, że nadmiar kurtozy będzie co najmniej tak wysoki jak pochylenie ^ 2 - 2. (Niech nadmiar kurtozy będzie równy czwartemu znormalizowanemu momentowi minus 3, tak aby nadmiar kurtozy = 0 dla rozkładu normalnego.) Zauważ też, że Khan i Rayner ( 2003) zbadali ANOVA z 3 grupami, ale ich wyniki prawdopodobnie uogólnią się na test t dla dwóch próbek.
Drugie istotne badanie ( Beasley, Erikson i Allison, 2009) zbadał zarówno błędy typu I, jak i typy II przy różnych rozkładach niestandardowych, takich jak chi-kwadrat (1) i Weibull (1, 5). W przypadku próbek o wielkości co najmniej 25 test t odpowiednio kontrolował poziom błędu typu I na poziomie lub poniżej nominalnego poziomu alfa. Moc była jednak najwyższa w teście Kruskala-Wallisa lub w odwrotnej normalnej transformacji opartej na rangie (wyniki Bloma) zastosowanej przed testem t. Beasley i współpracownicy generalnie opowiadali się przeciwko podejściu normalizującemu, ale należy zauważyć, że podejście normalizujące kontrolowało poziom błędu typu I dla n> = 25, a jego moc czasami nieznacznie przekraczała moc testu Kruskala-Wallisa. Oznacza to, że podejście normalizujące wydaje się obiecujące dla twojej sytuacji. Szczegółowe informacje można znaleźć w tabelach 1 i 4 w ich artykule.
Referencje:
Khan, A., i Rayner, GD (2003) . Odporność na nienormalność typowych testów dla problemu lokalizacji wielu próbek. Journal of Applied Mathematics and Decision Sciences, 7 , 187-206.
Beasley, TM, Erickson, S. i Allison, DB (2009) . Coraz częściej stosuje się odwrotne transformacje normalne oparte na rangach, ale czy są one uzasadnione? Behavioural Genetics, 39 , 580-595.
źródło
Przede wszystkim, jeśli założymy, że rozkład dwóch próbek jest inny, upewnij się, że używasz wersji t-testu Welcha, która zakłada nierówne wariancje między grupami. Spowoduje to przynajmniej próbę uwzględnienia niektórych różnic, które występują z powodu dystrybucji.
Jeśli spojrzymy na wzór testu t Welcha:
widzimy, że za każdym razem istnieje s wiemy wariancja jest brane pod uwagę. Wyobraźmy sobie, że dwie wariancje są w rzeczywistości takie same, ale jedna jest wypaczona, co prowadzi do innego oszacowania wariancji. Jeśli to oszacowanie wariancji nie jest w rzeczywistości reprezentatywne dla twoich danych ze względu na pochylenie, to faktycznie efekt promowania będzie w istocie pierwiastkiem kwadratowym tego błędu podzielonego przez liczbę punktów danych użytych do jego obliczenia. Zatem efekt złych estymatorów wariancji jest nieco tłumiony przez pierwiastek kwadratowy i wyższą n, i prawdopodobnie dlatego konsensus jest taki, że pozostaje on solidnym testem.
Inną kwestią rozkładów skośnych jest to, że wpłynie to również na obliczenia średnie, i prawdopodobnie tam są prawdziwe problemy naruszeń założeń testowych, ponieważ środki są stosunkowo wrażliwe na przekrzywienie. Odporność testu można z grubsza określić, obliczając różnicę średnich w porównaniu do różnicy w medianach (jako idea). Być może możesz nawet spróbować zastąpić różnicę średnich różnicą w medianach w teście t jako bardziej solidną miarę (jestem pewien, że ktoś o tym rozmawiał, ale nie mogłem znaleźć czegoś w Google na tyle szybko, aby można było utworzyć link).
Sugerowałbym również przeprowadzenie testu permutacji, jeśli wszystko, co robisz, to test t. Test permutacji jest testem dokładnym, niezależnym od założeń dotyczących dystrybucji. Co najważniejsze, testy permutacji i test t doprowadzą do identycznych wyników, jeśli zostaną spełnione założenia testu parametrycznego . Dlatego miarą niezawodności, której szukasz, może być 1 - różnica między permutacją a wartościami t-testu t, gdzie wynik 1 oznacza doskonałą wytrzymałość, a 0 oznacza, że nie jest wcale.
źródło