Powiedzmy, że chcę przetestować, czy dwie niezależne próbki mają różne środki. Wiem, że podstawowy rozkład nie jest normalny .
Jeśli dobrze rozumiem, moja statystyka testowa jest średnią , a dla wystarczająco dużych próbek, średnia powinna się rozkładać normalnie, nawet jeśli próbki nie są. Więc parametryczny test istotności powinien być w tym przypadku ważny, prawda? Przeczytałem sprzeczne i mylące informacje na ten temat, więc doceniłbym jakieś potwierdzenie (lub wyjaśnienie, dlaczego się mylę).
Przeczytałem również, że w przypadku próbek o dużych rozmiarach powinienem użyć statystyki z zamiast statystyki t. Ale w praktyce rozkład t będzie zbieżny z rozkładem normalnym, a dwie statystyki powinny być takie same, nie?
Edycja : Poniżej znajdują się niektóre źródła opisujące test Z. Oba stwierdzają, że populacje muszą być normalnie rozmieszczone:
Tutaj napisano: „Niezależnie od rodzaju zastosowanego testu Z zakłada się, że populacje, z których pobierane są próbki, są normalne”. I tutaj wymagania dla testu z są wymienione jako „Dwie normalnie rozmieszczone, ale niezależne populacje, σ jest znane”.
Odpowiedzi:
Myślę, że jest to powszechne nieporozumienie dotyczące CLT. CLT nie tylko nie ma nic wspólnego z zachowaniem błędu typu II (o którym nikt tu nie wspomniał), ale często nie ma zastosowania, gdy trzeba oszacować wariancję populacji. Wariancja próbki może być bardzo daleka od skalowanego rozkładu chi-kwadrat, gdy dane nie są gaussowskie, więc CLT może nie mieć zastosowania, nawet jeśli wielkość próbki przekracza dziesiątki tysięcy. Dla wielu dystrybucji SD nie jest nawet dobrym miernikiem dyspersji.
Aby naprawdę korzystać z CLT, jedna z dwóch rzeczy musi być prawdziwa: (1) odchylenie standardowe próbki działa jako miara dyspersji dla prawdziwego nieznanego rozkładu lub (2) znane jest prawdziwe odchylenie standardowe populacji. Bardzo często tak nie jest. A przykład, że n = 20 000 jest zdecydowanie za mały, aby CLT mógł „działać”, pochodzi z rysowania próbek z rozkładu logarytmicznego, jak omówiono w innym miejscu na tej stronie.
Przykładowe odchylenie standardowe „działa” jako miara dyspersji, jeśli na przykład rozkład jest symetryczny i nie ma ogonów, które są cięższe niż rozkład Gaussa.
Nie chcę polegać na CLT w żadnej z moich analiz.
źródło
Zostawiam ten akapit, aby komentarze miały sens: Prawdopodobnie założenie o normalności w pierwotnych populacjach jest zbyt restrykcyjne i można je pominąć, koncentrując się na rozkładzie próbkowania, a także dzięki środkowej twierdzeniu granicznym, szczególnie w przypadku dużych próbek.
Jak wspomniałeś, rozkład t zbiega się z rozkładem normalnym wraz ze wzrostem próbki, ponieważ ten szybki wykres R pokazuje:
Zatem zastosowanie testu Z prawdopodobnie byłoby dobre w przypadku dużych próbek.
Rozwiązywanie problemów z moją wstępną odpowiedzią. Dziękuję, Glen_b za pomoc w OP (prawdopodobne nowe błędy w interpretacji są całkowicie moje).
Pomijając złożoność we wzorach dla jednej próby v. Dwóch prób (sparowanych i niesparowanych), ogólna statystyka t koncentrująca się na przypadku porównania średniej próbki ze średnią populacji wynosi:
Tendencja do normalności rozkładu próbkowania oznacza, że wraz ze wzrostem wielkości próby można uzasadnić przyjęcie normalnego rozkładu licznika, nawet jeśli populacja nie jest normalna. Nie wpływa to jednak na pozostałe dwa warunki (rozkład chi mianownika i niezależność licznika od mianownika).
Ale nie wszystko przepadło, w tym poście dyskutowane jest, w jaki sposób twierdzenie Slutzky'ego wspiera asymptotyczną zbieżność w kierunku rozkładu normalnego, nawet jeśli rozkład chi mianownika nie jest spełniony.
Na papierze „Bardziej realistyczne spojrzenie na odporność i błędy typu II testu t na odchodzenie od normalności populacji” Sawilowsky SS i Blair RC w Biuletynie psychologicznym, 1992, t. 111, nr 2, 352-360 , gdzie testowali mniej idealne lub bardziej „rzeczywiste” (mniej normalne) rozkłady mocy i błędów typu I, można znaleźć następujące stwierdzenia: „Pomimo zachowawczego charakteru w odniesieniu do typu Wystąpił błąd testu t dla niektórych z tych rzeczywistych rozkładów, niewielki wpływ na poziomy mocy miały różne warunki leczenia i badane wielkości próbek. Badacze mogą łatwo zrekompensować niewielką utratę mocy, wybierając nieco większy rozmiar próbki ” .
„ Wydaje się, że dominuje pogląd, że test t niezależnych próbek jest dość solidny, o ile dotyczy to błędów typu I, w odniesieniu do kształtu populacji niegaussowskiej, o ile (a) wielkość próbek jest równa lub prawie taka sama, (b) próbka rozmiary są dość duże (Boneau, 1960, wspomina o rozmiarach próbek od 25 do 30) oraz (c) testy są raczej dwustronne niż jednostronne. Należy również pamiętać, że gdy te warunki są spełnione, a różnice między nominalną alfa a rzeczywistą alfa występują rozbieżności, które mają raczej charakter konserwatywny niż liberalny ”.
Autorzy podkreślają kontrowersyjne aspekty tego tematu i nie mogę się doczekać pracy nad niektórymi symulacjami opartymi na logarytmicznym rozkładzie, o czym wspomniał profesor Harrell. Chciałbym również przedstawić kilka porównań Monte Carlo metodami nieparametrycznymi (np. Test U Manna – Whitneya). To jest praca w toku ...
SYMULACJE:
Oświadczenie: Poniżej znajduje się jedno z tych ćwiczeń polegających na „udowodnieniu tego samemu” w ten czy inny sposób. Wyniki nie mogą być wykorzystane do uogólnień (przynajmniej nie przeze mnie), ale chyba mogę powiedzieć, że te dwie (prawdopodobnie wadliwe) symulacje MC nie wydają się zbyt zniechęcające, jeśli chodzi o zastosowanie testu t w danych okolicznościach opisane.
Błąd typu I:
W rzeczywistości wykres gęstości uzyskanych testów t wydawał się pokrywać z faktycznym pdf rozkładu t:
Najciekawszą częścią było spojrzenie na „mianownik” testu t, część, która miała być zgodna z rozkładem chi-kwadrat:
Tutaj używamy wspólnego standardowego odchylenia, jak w tym wpisie w Wikipedii :
I, co zaskakujące (lub nie), fabuła była bardzo odmienna od nałożonego pdf-kwadrat chi:
Błąd i moc typu II:
Kod jest tutaj .
źródło