Kiedy przeprowadzając test t, dlaczego wolałby zakładać (lub testować) równe wariancje zamiast zawsze używać przybliżenia df Welcha?

47

Wydaje się, że kiedy spełnione jest założenie jednorodności wariancji, wyniki skorygowanego testu t Welcha i standardowego testu t są w przybliżeniu takie same. Dlaczego po prostu nie zawsze używać dostosowanego t Welch?

russellpierce
źródło

Odpowiedzi:

33

Chciałbym sprzeciwić się pozostałym dwóm odpowiedziom na podstawie artykułu (w języku niemieckim) Kubingera, Rascha i Moder (2009) .

Argumentują, opierając się na „rozległych” symulacjach z rozkładów, które spełniają lub nie spełniają założeń narzuconych przez test t (normalność i jednorodność wariancji), że testy welchowe działają równie dobrze, gdy założenia są spełnione (tj. Zasadniczo takie same prawdopodobieństwo popełnienia błędów alfa i beta), ale przewyższa test t, jeśli założenia nie są spełnione, zwłaszcza pod względem mocy. Dlatego zaleca się, aby zawsze stosować test Welch, jeśli wielkość próbki przekracza 30.

Jako meta-komentarz: dla osób zainteresowanych statystykami (takich jak ja i prawdopodobnie większość innych tutaj) argument oparty na danych (jak mój) powinien co najmniej liczyć się równo z argumentami opartymi wyłącznie na podstawach teoretycznych (tak jak inne tutaj).


Aktualizacja:
Po ponownym przemyśleniu tego tematu znalazłem dwie dalsze rekomendacje, z których nowsze wspierają mój punkt widzenia. Spójrz na oryginalne artykuły (które są, przynajmniej dla mnie, ogólnie dostępne), na argumenty, które prowadzą do tych zaleceń.

Pierwsze zalecenie pochodzi od Graeme D. Ruxton w 2006 r .: „ Jeśli chcesz porównać tendencję centralną 2 populacji na podstawie próbek niepowiązanych danych, wówczas należy zawsze zastosować test t wariancji nierówności zamiast testu t Studenta lub test U Manna – Whitneya.
W:
Ruxton, GD, 2006. Test t nierówności wariancji jest niewykorzystaną alternatywą dla testu t Studenta i testu U Manna – Whitneya . Behav Ecol . 17, 688–690.

Drugie (starsze) zalecenie pochodzi od Coombs i in. (1996, s. 148): „ Podsumowując, test t niezależnych próbek jest ogólnie akceptowalny pod względem kontrolowania poziomów błędów typu I, pod warunkiem, że istnieją wystarczająco duże próbki o równej wielkości, nawet gdy naruszone zostanie założenie równej wariancji populacji. Dla nierównych -wymiary próbek, jednak preferowana jest alternatywa, która nie zakłada równych wariancji populacji. Użyj testu Jamesa drugiego rzędu, gdy rozkłady są albo symetryczne krótko-normalne, albo normalne. Obiecujące alternatywy obejmują testy środków przyciętych Wilcox H i Yuen, które zapewniają szersza kontrola wskaźników błędów typu I niż test Welcha lub Jamesa i mają większą moc, gdy dane są długookresowe. ” (wyróżnienie dodane)
W:
Coombs WT, Algina J, Oltman D. 1996. Wybrano jedno- i wielowymiarowe omnibusowe testy hipotez wybrane w celu kontroli poziomów błędów typu I, gdy wariancje populacji niekoniecznie są równe . Rev Educ Res 66: 137–79.

Henrik
źródło
3
Meta-odpowiedź: Dobra uwaga. Ale twoje dane mogą nie zachowywać się tak jak moje! :-)
whuber
Henrik, czy miałbyś coś przeciwko, jeśli zmienię odpowiedź na: (1) zmień terminologię, wywołując testy test t Studenta i test t Welcha (jak znalazłem w większości literatury); (2) dołącz inny artykuł, który sugeruje to w dyskusji: rips-irsp.com/article/10.5334/irsp.82 (podkreśla uprzedzenie, które ma miejsce, gdy wybierasz testy oparte na teście jednorodności Levene'a).
Bruno,
13

oczywiście można porzucić oba testy i rozpocząć stosowanie tesesowskiego testu t (test Savage'a-Dickeya), który może uwzględniać nierówne i nierówne wariancje, a co najważniejsze, pozwala na kwantyfikację dowodów na korzyść hipoteza zerowa (co oznacza, że ​​nie ma już mowy o „nieudanym odrzuceniu”)

Ten test jest bardzo prosty (i szybki) do wdrożenia, a jest artykuł, który jasno wyjaśnia czytelnikom niezaznajomionym z statystyki Bayesa, jak go używać, wraz ze skryptem R. możesz po prostu wstawić swoje dane i wysłać polecenia do konsoli R.

Wetzels, R., Raaijmakers, JGW, Jakab, E. i Wagenmakers, E.-J. (2009). Jak obliczyć poparcie dla i przeciw hipotezie zerowej: elastyczna implementacja WinBUGS domyślnego testu tesa bayesowskiego.

na ten temat znajduje się także samouczek z przykładowymi danymi:

http://www.ruudwetzels.com/index.php?src=SDtest

Wiem, że nie jest to bezpośrednia odpowiedź na to, o co pytano, ale pomyślałem, że czytelnicy mogą cieszyć się z tej miłej alternatywy

Twoje zdrowie

Dave Kellen
źródło
8
zawsze ci faceci z bayesian ...
Henrik
3
Kolejną bayesowską alternatywą dla testu t jest rutyna BEST (ocena Bayesa zastępuje test t). Więcej informacji tutaj: indiana.edu/~kruschke/BEST . Wersja online tutaj: sumsar.net/best_online .
Rasmus Bååth
7

Ponieważ dokładne wyniki są lepsze niż aproksymacje i należy unikać nieparzystych przypadków krawędzi, w których aproksymacja może prowadzić do innego wyniku niż dokładna metoda.

Metoda Welcha nie jest szybszym sposobem na wykonanie jakiegokolwiek starego testu t, jest możliwym do przyjęcia przybliżeniem bardzo trudnego problemu: jak skonstruować test t przy nierównych wariancjach. Przypadek równej wariancji jest dobrze zrozumiały, prosty i dokładny, dlatego należy go zawsze stosować, gdy jest to możliwe.

Bogaty
źródło
6
Myślę, że raczej zgadzam się bardziej z Johnem Tukeyem - „O wiele lepsza jest przybliżona odpowiedź na właściwe pytanie, które często jest niejasne, niż dokładna odpowiedź na złe pytanie, którą zawsze można sprecyzować.
Glen_b
4
Sam test t równości wariancji (studenta) jest jedynie (niezrozumiałym) przybliżeniem, gdy wariancje próby populacji są nierówne. Dlatego, o ile nie wiadomo, że wariancje populacji są równe, lepiej jest zastosować przybliżenie do prawidłowego rozkładu próbkowania (Welch-Satterthwaite) niż zastosować idealnie dokładny rozkład, który nie dotyczy modelu danych.
whuber
4

Mogę wymyślić dwa powody:

  1. Zwykła T Studenta jest dość odporna na heteroscedastyczność, jeśli wielkości próbek są równe.

  2. Jeśli mocno wierzysz z góry, że dane są homoscedastyczne, nic nie tracisz i możesz zyskać niewielką moc, używając Studen'ts T zamiast Welch's T.

Jednym z powodów, których nie podałbym, jest to, że T Studenta jest dokładne, a T Welcha nie. IMHO dokładność T Studenta ma charakter akademicki, ponieważ jest dokładna tylko dla normalnie dystrybuowanych danych i żadne rzeczywiste dane nie są dokładnie normalnie dystrybuowane. Nie mogę wymyślić jednej wielkości, którą ludzie faktycznie mierzą i analizują statystycznie, gdzie rozkład mógłby mieć wiarygodne poparcie dla wszystkich liczb rzeczywistych. Na przykład we wszechświecie jest tylko tyle atomów, a niektóre ilości nie mogą być ujemne. Dlatego, gdy używasz dowolnego rodzaju testu T na rzeczywistych danych, i tak przybliżasz się.

dsimcha
źródło
2
(1) jest niepoprawny, gdy podstawowe wariancje populacji są bardzo różne. W skrajnym przypadku - aby zobaczyć, dlaczego tak się dzieje - zastanów się, co się stanie, gdy jedna populacja w ogóle nie będzie mieć wariancji. Student t w efekcie porównałby dane z drugiej populacji ze stałą, ale pomyślałby, że ma dwa razy więcej stopni swobody. Błąd, który popełnia, byłby porównywalny z samym testem Z.
whuber
Chociaż jest to prawda @whuber, to tylko w bardzo ekstremalnych przypadkach. Właśnie patrzyłem na różnicę wariancji 1e6: 1 i p = 0,053. Może się tak zdarzyć, ale nadal twierdzę, że jest dość solidny z równym N.
John
@John Współczynnik wariancji 1e6: 1 jest ogromny , niezależnie od tego, czym może być . W takim przypadku t może być mylące. ni
whuber
@ Whuber, po prostu sugeruję, że chociaż powyższy komentarz jest technicznie prawdziwy, korekcja Welcha nie jest rozwiązaniem problemu, który podajesz jako przykład, i nie jest tak naprawdę bardzo krytyczna wobec solidności testu pod względem współczynników alfa (co zwykle oznacza (1)). Jak sugerujesz, kiedy (ekstremalna) nierówna wariancja jest problemem, masz inne problemy, ale to naprawdę inny temat.
John
3

Fakt, że coś bardziej złożonego sprowadza się do czegoś mniej złożonego, gdy sprawdzane jest pewne założenie, nie wystarczy, aby odrzucić prostszą metodę.


źródło
4
Zwłaszcza jeśli chodzi o studentów.
Matt Parker,
2

Przyjąłbym tutaj przeciwny pogląd. Po co zawracać sobie głowę testem Welcha, gdy standardowy niesparowany test t studenta daje prawie identyczne wyniki. Studiowałem ten problem jakiś czas temu i badałem szereg scenariuszy, próbując rozbić test t i faworyzować test Welcha. Aby to zrobić, użyłem wielkości próbek do 5 razy większych dla jednej grupy niż dla drugiej. Badałem wariancje do 25 razy większe dla jednej grupy niż dla drugiej. I tak naprawdę nie miało to istotnego znaczenia. Niesparowany test t nadal generował zakres wartości p, które były prawie identyczne z testem Welcha.

Możesz zobaczyć moją pracę pod poniższym linkiem i skupić się szczególnie na slajdzie 5 i 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

Sympa
źródło
Przepraszam, jakie jest rozróżnienie między formułą z dużą próbką a formułą z małą próbką? Czy obliczasz wariancje przy użyciu formuły populacji w dużych próbkach, a nie przy użyciu szacunkowej próby wariancji populacji?
russellpierce
Test t dla studentów niesparowanych ma dwie formuły. Wzór na dużą próbkę stosuje się do próbek z ponad 30 obserwacjami. Wzór na małą próbkę stosuje się do próbek z mniej niż 30 obserwacjami. Główną różnicą w tych formułach jest sposób obliczania błędu standardowego w puli. Wzór na małą próbkę jest znacznie bardziej skomplikowany i sprzeczny z intuicją. W rzeczywistości nie ma to większego znaczenia. Testowałem to kilka razy. Dlatego myślę, że większość ludzi zapomniała o tym rozróżnieniu. I przez większość czasu używają formuły dużej próbki.
Sympa
0

Prawdą jest, że częstościowe właściwości testu poprawionego przez Welcha są lepsze niż T zwykłego Studenta, przynajmniej w przypadku błędów. Zgadzam się, że sam ten fakt jest całkiem dobrym argumentem dla testu Welcha. Jednak zwykle niechętnie zalecam korektę Welcha, ponieważ jej użycie jest często mylące. Co nie jest wprawdzie krytyką samego testu.

Powodem, dla którego nie zalecam korekcji Welcha, jest to, że nie tylko zmienia ona stopnie swobody i późniejszy rozkład teoretyczny, z którego czerpana jest wartość p. To sprawia, że ​​test jest nieparametryczny. Aby wykonać test t skorygowany przez Welcha, nadal zbiera się wariancję, tak jakby można było założyć taką samą wariancję, ale następnie zmienia się końcową procedurę testową, sugerując, że nie można założyć równej wariancji, lub że zależy tylko na wariancjach próbki. To sprawia, że ​​jest to test nieparametryczny, ponieważ połączona wariancja jest uważana za niereprezentatywną dla populacji i przyznałeś, że właśnie testujesz zaobserwowane wartości.

Sam w sobie nie ma w tym nic szczególnie złego. Uważam to jednak za zwodnicze, ponieważ: a) zazwyczaj nie jest zgłaszane z wystarczającą dokładnością; oraz b) ludzie, którzy go używają, zwykle myślą o tym zamiennie z testem t. Jedynym sposobem, w jaki kiedykolwiek wiem, że dokonano tego w opublikowanych artykułach, jest to, że widzę dziwny DF dla rozkładu t. To był również jedyny sposób, w jaki Rexton (wymieniony w odpowiedzi Henrika) mógł powiedzieć w recenzji. Niestety, nieparametryczny charakter testu z poprawką Welcha występuje niezależnie od tego, czy stopnie swobody uległy zmianie, czy nie (tj. Nawet jeśli wariancje próbki są równe). Ale ten problem z raportowaniem jest symptomatyczny z faktu, że większość osób korzystających z korekcji Welcha nie rozpoznaje tej zmiany w teście.

Dlatego z tego powodu uważam, że jeśli zamierzasz polecić test nieparametryczny, nie używaj testu, który często wydaje się parametryczny, lub przynajmniej bardzo jasno określaj, co robisz. Oficjalna nazwa testu powinna być nieparametrycznym testem T z poprawką Welcha. Gdyby ludzie tak to zgłaszali, byłbym znacznie bardziej zadowolony z rekomendacji Henrika.

Jan
źródło
Nie znalazłem żadnego wsparcia w odpowiedzi na pytanie, dlaczego test Welcha może być „zwodniczy”. Czy możesz wyjaśnić podstawy tego?
whuber
Być może moje edycje wyjaśniły rzeczy @ whuber. Powinienem był jasno powiedzieć, że nie jest to oszukańcze, ale często dotyczy zarówno użytkownika testu, jak i czytelnika wyników testu.
John
1
Dziękuję Ci. Poza kwestią raportowania - którą niesprawiedliwie byłoby określić jako błąd testu! - wydaje się, że sprowadza się to do pewnego rodzaju sprzeciwu z twojej strony, że test Welcha jest nieparametryczny. Co może być z tym związane? Ceteris paribus , który należy uznać za zaletę, a nie problem.
whuber
1
Jest to rozróżnienie, które na ogół nie jest jasne. Przyznaję w odpowiedzi, że sam w sobie nie stanowi problemu, ale większość ludzi traktuje go parametrycznie, co jest błędem. Nie sądzę, że tutaj jest miejsce na dyskusję na temat korzyści lub kosztów testowania nieparametrycznego. Ponadto nie wymieniono go w tym wątku i może to stanowić problem dla wielu osób. Nawiasem mówiąc, dwie nasze klasy statystyk wprowadzających uczą go równolegle z testem t Studenta i promują go, ale mają całą oddzielną sekcję na temat testów nieparametrycznych.
John
Czy możesz wyjaśnić, co rozumiesz przez „czyni test nieparametryczny”?
Glen_b