Test t niezależnych próbek: Czy dane naprawdę muszą być normalnie dystrybuowane dla dużych próbek?

13

Powiedzmy, że chcę przetestować, czy dwie niezależne próbki mają różne środki. Wiem, że podstawowy rozkład nie jest normalny .

Jeśli dobrze rozumiem, moja statystyka testowa jest średnią , a dla wystarczająco dużych próbek, średnia powinna się rozkładać normalnie, nawet jeśli próbki nie są. Więc parametryczny test istotności powinien być w tym przypadku ważny, prawda? Przeczytałem sprzeczne i mylące informacje na ten temat, więc doceniłbym jakieś potwierdzenie (lub wyjaśnienie, dlaczego się mylę).

Przeczytałem również, że w przypadku próbek o dużych rozmiarach powinienem użyć statystyki z zamiast statystyki t. Ale w praktyce rozkład t będzie zbieżny z rozkładem normalnym, a dwie statystyki powinny być takie same, nie?

Edycja : Poniżej znajdują się niektóre źródła opisujące test Z. Oba stwierdzają, że populacje muszą być normalnie rozmieszczone:

Tutaj napisano: „Niezależnie od rodzaju zastosowanego testu Z zakłada się, że populacje, z których pobierane są próbki, są normalne”. I tutaj wymagania dla testu z są wymienione jako „Dwie normalnie rozmieszczone, ale niezależne populacje, σ jest znane”.

Lisa
źródło
To, co mówisz, ma sens. Używasz centralnego twierdzenia granicznego, aby założyć normalność w rozkładzie średnich próbek. Ponadto używasz testu t, ponieważ nie masz wariancji populacji i szacujesz ją na podstawie wariancji próby. Ale czy możesz połączyć lub opublikować którekolwiek z tych sprzecznych źródeł?
Antoni Parellada
Dzięki za odpowiedź! Tutaj na przykład wymagania dotyczące testu Z są wymienione jako „Dwie normalnie rozmieszczone, ale niezależne populacje, znane jest σ”, więc mówią o rozmieszczeniu populacji, a nie o średniej - czy to źle?
Lisa,
@AntoniParellada Włączyłem niektóre źródła do oryginalnego postu!
Lisa
Sprawdź w Wikipedii
Antoni Parellada
Jeśli wiadomo, że pierwotne populacje są normalne, mamy idealną, niekwestionowaną sytuację. Jednak często występuje CLT, szczególnie w dużych próbkach, aby uniknąć zależności od tego bardzo wysokiego rzędu warunków wskazanych na powiązanym papierze.
Antoni Parellada

Odpowiedzi:

7

Myślę, że jest to powszechne nieporozumienie dotyczące CLT. CLT nie tylko nie ma nic wspólnego z zachowaniem błędu typu II (o którym nikt tu nie wspomniał), ale często nie ma zastosowania, gdy trzeba oszacować wariancję populacji. Wariancja próbki może być bardzo daleka od skalowanego rozkładu chi-kwadrat, gdy dane nie są gaussowskie, więc CLT może nie mieć zastosowania, nawet jeśli wielkość próbki przekracza dziesiątki tysięcy. Dla wielu dystrybucji SD nie jest nawet dobrym miernikiem dyspersji.

Aby naprawdę korzystać z CLT, jedna z dwóch rzeczy musi być prawdziwa: (1) odchylenie standardowe próbki działa jako miara dyspersji dla prawdziwego nieznanego rozkładu lub (2) znane jest prawdziwe odchylenie standardowe populacji. Bardzo często tak nie jest. A przykład, że n = 20 000 jest zdecydowanie za mały, aby CLT mógł „działać”, pochodzi z rysowania próbek z rozkładu logarytmicznego, jak omówiono w innym miejscu na tej stronie.

Przykładowe odchylenie standardowe „działa” jako miara dyspersji, jeśli na przykład rozkład jest symetryczny i nie ma ogonów, które są cięższe niż rozkład Gaussa.

Nie chcę polegać na CLT w żadnej z moich analiz.

Frank Harrell
źródło
3
CLT może być trochę czerwonym śledziem. Często może się zdarzyć, że średnia próbki ma zdecydowanie nienormalny rozkład, a próbka SD ma zdecydowanie inny niż chi kształt, ale mimo to t-statystyki jest użytecznie aproksymowane przez rozkład t Studenta (częściowo z powodu zależności między nimi Statystyka). To, czy tak jest w danym przypadku, należy ocenić w danej sytuacji. Ponieważ jednak CLT niewiele mówi o próbkach skończonych (i nie mówi o nich absolutnie nic ilościowego ), jego wywołanie na poparcie założeń dystrybucyjnych jest zwykle nieważne.
whuber
Czy można uczciwie powiedzieć, że omawiamy (i uczymy się w moim przypadku) procedurę (porównującą dwa przykładowe średnie z nieznanych rozkładów z testem t), która jest wykonywana rutynowo (i być może bezmyślnie) codziennie na całym świecie, chociaż jej uzasadnienie może być słabe? I czy są jakieś zastosowania CLT w praktyce, które byłyby tolerowane / dopuszczalne, nawet jeśli nie byłyby idealne?
Antoni Parellada,
-statistic bardzo często ma rozkład, który jest bardzo daleko od t dystrybucji, gdy dane pochodzą z rozkładu Gaussa nie. I tak, powiedziałbym, że uzasadnienie zastosowania testu t jest słabsze niż myśli większość praktyków. Dlatego wolę metody pół- i nieparametryczne. ttt
Frank Harrell,
2
CLT jest naprawdę stwierdzeniem asymptotycznym, a kiedy większość ludzi się na to powołuje, podejrzewam, że pomysł w ich głowie jest tak naprawdę podobny do twierdzenia Berry'ego i Esseena (uważają, że konwergencja do normalności zachodzi w „rozsądnym” tempie, a zatem ich wielkość próby jest „wystarczająco dobry”). Ale nawet to nieco bardziej wyrafinowane rozumowanie może prowadzić do błędnego wniosku na temat ważności testu t. Zastanawiam się, czy warto w tej odpowiedzi wspomnieć / podkreślić, że nawet Berry – Esseen nie „ratuje” błędnego odwołania do CLT.
Silverfish
3
@FrankHarrell Co rozumiesz przez „odchylenie standardowe próbki działa jako miara dyspersji dla prawdziwie nieznanego rozkładu”? Przydałoby się krótkie wyjaśnienie (być może tylko jedno zdanie) do swojej odpowiedzi.
mark999
9

Zostawiam ten akapit, aby komentarze miały sens: Prawdopodobnie założenie o normalności w pierwotnych populacjach jest zbyt restrykcyjne i można je pominąć, koncentrując się na rozkładzie próbkowania, a także dzięki środkowej twierdzeniu granicznym, szczególnie w przypadku dużych próbek.

t

Jak wspomniałeś, rozkład t zbiega się z rozkładem normalnym wraz ze wzrostem próbki, ponieważ ten szybki wykres R pokazuje:

wprowadź opis zdjęcia tutaj

t

Zatem zastosowanie testu Z prawdopodobnie byłoby dobre w przypadku dużych próbek.


Rozwiązywanie problemów z moją wstępną odpowiedzią. Dziękuję, Glen_b za pomoc w OP (prawdopodobne nowe błędy w interpretacji są całkowicie moje).

  1. T STATYSTYCZNE OBSERWUJĄ W DYSTRYBUCJI W PODZIALE NA NORMALNOŚĆ:

Pomijając złożoność we wzorach dla jednej próby v. Dwóch prób (sparowanych i niesparowanych), ogólna statystyka t koncentrująca się na przypadku porównania średniej próbki ze średnią populacji wynosi:

(1)test t=X¯-μsn=X¯-μσ/ns2)σ2)=X¯-μσ/nx=1n(X-X¯)2)n-1σ2)

Xμσ2)

  1. (1) N.(1,0)
  2. (1)s2)/σ2)n-11n-1χn-12)(n-1)s2)/σ2)χn-12)
  3. Licznik i mianownik powinny być niezależne.

Statystyka tt(refa=n-1)

  1. TEOREM LIMITU ŚRODKOWEGO:

Tendencja do normalności rozkładu próbkowania oznacza, że ​​wraz ze wzrostem wielkości próby można uzasadnić przyjęcie normalnego rozkładu licznika, nawet jeśli populacja nie jest normalna. Nie wpływa to jednak na pozostałe dwa warunki (rozkład chi mianownika i niezależność licznika od mianownika).

Ale nie wszystko przepadło, w tym poście dyskutowane jest, w jaki sposób twierdzenie Slutzky'ego wspiera asymptotyczną zbieżność w kierunku rozkładu normalnego, nawet jeśli rozkład chi mianownika nie jest spełniony.

  1. KRZEPKOŚĆ:

Na papierze „Bardziej realistyczne spojrzenie na odporność i błędy typu II testu t na odchodzenie od normalności populacji” Sawilowsky SS i Blair RC w Biuletynie psychologicznym, 1992, t. 111, nr 2, 352-360 , gdzie testowali mniej idealne lub bardziej „rzeczywiste” (mniej normalne) rozkłady mocy i błędów typu I, można znaleźć następujące stwierdzenia: „Pomimo zachowawczego charakteru w odniesieniu do typu Wystąpił błąd testu t dla niektórych z tych rzeczywistych rozkładów, niewielki wpływ na poziomy mocy miały różne warunki leczenia i badane wielkości próbek. Badacze mogą łatwo zrekompensować niewielką utratę mocy, wybierając nieco większy rozmiar próbki ” .

Wydaje się, że dominuje pogląd, że test t niezależnych próbek jest dość solidny, o ile dotyczy to błędów typu I, w odniesieniu do kształtu populacji niegaussowskiej, o ile (a) wielkość próbek jest równa lub prawie taka sama, (b) próbka rozmiary są dość duże (Boneau, 1960, wspomina o rozmiarach próbek od 25 do 30) oraz (c) testy są raczej dwustronne niż jednostronne. Należy również pamiętać, że gdy te warunki są spełnione, a różnice między nominalną alfa a rzeczywistą alfa występują rozbieżności, które mają raczej charakter konserwatywny niż liberalny ”.

Autorzy podkreślają kontrowersyjne aspekty tego tematu i nie mogę się doczekać pracy nad niektórymi symulacjami opartymi na logarytmicznym rozkładzie, o czym wspomniał profesor Harrell. Chciałbym również przedstawić kilka porównań Monte Carlo metodami nieparametrycznymi (np. Test U Manna – Whitneya). To jest praca w toku ...


SYMULACJE:

Oświadczenie: Poniżej znajduje się jedno z tych ćwiczeń polegających na „udowodnieniu tego samemu” w ten czy inny sposób. Wyniki nie mogą być wykorzystane do uogólnień (przynajmniej nie przeze mnie), ale chyba mogę powiedzieć, że te dwie (prawdopodobnie wadliwe) symulacje MC nie wydają się zbyt zniechęcające, jeśli chodzi o zastosowanie testu t w danych okolicznościach opisane.

Błąd typu I:

n=50μ=0σ=1

wprowadź opis zdjęcia tutaj

5%4.5%

W rzeczywistości wykres gęstości uzyskanych testów t wydawał się pokrywać z faktycznym pdf rozkładu t:

wprowadź opis zdjęcia tutaj

Najciekawszą częścią było spojrzenie na „mianownik” testu t, część, która miała być zgodna z rozkładem chi-kwadrat:

(n-1)s2)/σ2)=98(49(SDZA2)+SDZA2)))/98(miσ2)-1)mi2)μ+σ2)

Tutaj używamy wspólnego standardowego odchylenia, jak w tym wpisie w Wikipedii :

S.X1X2)=(n1-1)S.X12)+(n2)-1)S.X2)2)n1+n2)-2)

I, co zaskakujące (lub nie), fabuła była bardzo odmienna od nałożonego pdf-kwadrat chi:

wprowadź opis zdjęcia tutaj

Błąd i moc typu II:

109

wprowadź opis zdjęcia tutaj5%0,024%99%

Kod jest tutaj .

Antoni Parellada
źródło
1
Myślę, że jest to powszechne nieporozumienie dotyczące CLT. CLT nie tylko nie ma nic wspólnego z zachowaniem błędu typu II (o którym nikt tu nie wspominał), ale często nie ma zastosowania, gdy trzeba oszacować wariancję populacji. Wariancja próbki może być bardzo daleka od skalowanego rozkładu chi-kwadrat, gdy dane nie są gaussowskie, więc CLT może nie mieć zastosowania, nawet jeśli wielkość próbki przekracza dziesiątki tysięcy. Dla wielu dystrybucji SD nie jest nawet dobrym miernikiem dyspersji.
Frank Harrell
1
Profesorze Harrella, chętnie zdejmę stanowisko, jeśli jest niepoprawne. Może to być bardzo fundamentalne nieporozumienie. Sugerowałem, że jest to CLT zastosowany do rozkładu środków próbki, który potwierdza, w dużych próbkach, porównanie średnich z testem Z lub testem t niezależnie od rozkładu pochodzenia próbek. To nie jest poprawne?
Antoni Parellada
1
Byłoby to prawidłowe, gdyby (1) odchylenie standardowe próbki działało jako miara dyspersji dla prawdziwego nieznanego rozkładu lub (2) znane jest prawdziwe odchylenie standardowe populacji. Bardzo często tak nie jest. A przykład, że n = 20 000 jest zdecydowanie za mały, aby CLT mógł „pracować”, pochodzi z pobierania próbek z rozkładu logarytmicznego. Nieporozumienie dotyczące tych punktów jest powszechne wśród doktorantów w dziedzinie statystyki z 20-letnim doświadczeniem.
Frank Harrell
5
Problemem, Lisa, jest to, czy musisz porównać środki, czy po prostu chcesz porównać lokalizacje dwóch populacji. W niektórych aplikacjach zainteresowanie koncentruje się na średniej lub sumie, dlatego zastąpienie go jakimś innym parametrem byłoby mało przydatne. Dzieje się tak zwłaszcza w przypadku, gdy populacja stanowi naturalnie skumulowaną ilość, taką jak pieniądze lub zanieczyszczenie środowiska.
whuber
3
Antoni, twój ostatni rozdział na temat solidności jest całkiem odpowiedni. Przeprowadziłem wiele badań podobnych do tych, które opisali Sawilosky i Blair, i przeczytałem wiele innych, dlatego podejrzewam, że ich wnioski muszą ograniczać się do bardzo szczególnych rodzajów danych. Test t niefortunnie kończy się niepowodzeniem, zwłaszcza pod względem mocy, w obecności mocno wypaczonych rozkładów. Zaskoczyło mnie przez lata to, że jest rzeczywiście dość odporny na inne odstępstwa od normalności, do tego stopnia, że ​​widzę pewną słuszność w twierdzeniach, że jest to procedura nieparametryczna.
whuber