Pytanie o założenie normalności testu t

9

W przypadku testów t, zgodnie z większością tekstów, zakłada się, że dane populacji są zwykle rozłożone. Nie rozumiem, dlaczego tak jest. Czy test t nie wymaga jedynie, aby rozkład próbkowania średnich próbek był normalnie rozłożony, a nie populacja?

Jeśli jest tak, że test t ostatecznie ostatecznie wymaga normalności w rozkładzie próbkowania, populacja może wyglądać jak dowolny rozkład, prawda? Tak długo, jak istnieje rozsądna wielkość próby. Czy to nie to, co stwierdza centralne twierdzenie graniczne?

(Mam tu na myśli testy t dla jednej próbki lub niezależnych próbek)

Peter Nash
źródło
1
Cóż, średnia próbki jako zmienna losowa może być normalna tylko wtedy, gdy pojedyncze części są również normalne. Ale masz rację: test t jest asymptotycznie nieparametryczny (brak rozkładu normalnego), ale nadal wariancje wewnątrz grupy (w sytuacji dwóch prób) powinny być podobne i istnieć.
Michael M
Czy wariancje wewnątrzgrupowe są podobne, czy odwołujesz się do założenia jednorodności wariancji? Jeśli tak, test t-Welch jest odpowiedni do tego, prawda?
Peter Nash,
Tak, dokładnie. Jeśli skorygowane stopnie swobody Welcha zmienią się w nieskończoność, wówczas również jego procedura byłaby wolna od dystrybucji (potrzebne jest jednak odwołanie ...).
Michael M

Odpowiedzi:

9

W przypadku testów t, zgodnie z większością tekstów, zakłada się, że dane populacji są zwykle rozłożone. Nie rozumiem, dlaczego tak jest. Czy test t nie wymaga jedynie, aby rozkład próbkowania średnich próbek był normalnie rozłożony, a nie populacja?

Statystyka t składa się ze stosunku dwóch wielkości, obu zmiennych losowych. Nie składa się tylko z licznika.

Aby statystyka t miała rozkład t, nie wystarczy, że średnia próbki ma rozkład normalny. Potrzebujesz również:

  • aby w mianowniku były takie, że *ss2/σ2χd2

  • aby licznik i mianownik były niezależne.

* (wartość zależy od tego, który test - w jednej próbce mamy )dtd=n1

Aby te trzy rzeczy były rzeczywiście prawdziwe, potrzebujesz, aby oryginalne dane były zwykle dystrybuowane.

Jeśli jest tak, że test t ostatecznie ostatecznie wymaga normalności w rozkładzie próbkowania, populacja może wyglądać jak dowolny rozkład, prawda?

Przyjrzyjmy się przez chwilę. Aby CLT mógł utrzymać populację, musi spełniać warunki ... - populacja musi mieć rozkład, do którego ma zastosowanie CLT. Więc nie, ponieważ istnieją rozkłady populacji, do których CLT nie ma zastosowania.

Tak długo, jak istnieje rozsądna wielkość próby. Czy to nie to, co stwierdza centralne twierdzenie graniczne?

Nie, CLT tak naprawdę nie mówi ani słowa o „rozsądnej wielkości próby”.

W rzeczywistości nic nie mówi o tym, co dzieje się przy dowolnej skończonej wielkości próbki.

Myślę teraz o konkretnej dystrybucji. Jest to taki, do którego CLT z pewnością ma zastosowanie. Ale przy rozkład średniej próbki jest wyraźnie nienormalny. Wątpię jednak, aby jakakolwiek próbka w historii ludzkości zawierała w sobie tyle wartości. Więc - poza tautologią - co oznacza „rozsądny ”?n=1015n


Masz więc dwa problemy:

A. Efekt, który ludzie zwykle przypisują CLT - coraz bardziej bliskie podejście do normalności rozkładów średnich próbek przy małych / średnich rozmiarach próbek - nie jest tak naprawdę stwierdzony w CLT **.

B. „Coś, co nie jest tak dalekie od normy w liczniku”, nie wystarcza, aby uzyskać statystykę o rozkładzie T.

** (Coś w rodzaju twierdzenia Berry'ego-Esseena bardziej przypomina to, co ludzie widzą, gdy patrzą na wpływ zwiększenia wielkości próby na rozkład średnich próbek).


CLT i twierdzenie Słuckiego razem dają (o ile utrzymują wszystkie ich założenia), że od rozkład statystyki t zbliża się do normy normalnej. Nie mówi, czy dany skończony może być wystarczający do jakiegoś celu.nn

Glen_b - Przywróć Monikę
źródło
1
Aby te trzy rzeczy [normalność średniej próbki, chi-kwadratowość wariancji próbki i niezależność obu] były rzeczywiście prawdziwe, potrzebne są normalne dane pierwotne. Czy mówisz, że tylko Normalny ma te trzy właściwości? Nie twierdzę, że to stwierdzenie jest fałszywe, po prostu ciekawi mnie, czy tak mówisz.
Andrew M
2
@AndrewM Z pewnością tylko normalne mają wszystkie trzy razem. Ponadto pierwszy lub trzeci sam wystarczy, aby wskazać normalną - trzecia charakteryzuje normalną ( Lukacs, 1942 ), a dla skończonej liczby niezależnych zmiennych losowych tylko normalna ma pierwszą ( twierdzenie o rozkładzie Craméra ). Można sobie wyobrazić, że istnieje inny sposób na zdobycie drugiego, ale nie znam go.
Glen_b
@AndrewM w odniesieniu do drugiego dzieła Ahsanullaha (1987, 1989) mogą być istotne.
Glen_b
1
Dzięki za referencje @Glen_b! Nie byłem świadomy wyniku Lukacsa, a twierdzenie Cramera o tym, jak stwierdzono, jest raczej silniejsze niż wersja, którą miałem na czubku głowy ( Normal iff Normal, dla wszystkich macierzy ). XAXA
Andrew M,
@AndrewM Różnica polega na tym, że cytowany tam wynik nie zależy od niezależności, a wynik Cramera jest. Obaj są przydatni na swoim miejscu.
Glen_b