Dawno temu dowiedziałem się, że rozkład normalny jest konieczny, aby zastosować test T z dwoma próbkami. Dzisiaj koleżanka powiedziała mi, że dowiedziała się, że dla N> 50 rozkład normalny nie był konieczny. Czy to prawda?
Jeśli prawda jest taka ze względu na centralne twierdzenie graniczne?
Odpowiedzi:
Założenie normalności dla testu t
Rozważ dużą populację, z której możesz pobrać wiele różnych próbek o określonym rozmiarze. (W konkretnym badaniu na ogół zbiera się tylko jedną z tych próbek).
Test t zakłada, że średnie z różnych próbek są zwykle rozmieszczone; nie zakłada się, że populacja jest zwykle podzielona.
Według centralnego twierdzenia granicznego średnie próbek z populacji o skończonej wariancji zbliżają się do rozkładu normalnego bez względu na rozkład populacji. Reguły praktyczne mówią, że środki próbki są w zasadzie normalnie rozmieszczone, o ile wielkość próbki wynosi co najmniej 20 lub 30. Aby test t był ważny na próbce o mniejszym rozmiarze, rozkład populacji musiałby być w przybliżeniu normalny.
Test t jest nieważny dla małych próbek z rozkładów niestandardowych, ale jest ważny dla dużych próbek z rozkładów niestandardowych.
Małe próbki z niestandardowych rozkładów
Jak zauważa poniżej Michael, wielkość próby potrzebna do rozkładu środków w celu przybliżenia normalności zależy od stopnia nienormalności populacji. W przypadku rozkładów w przybliżeniu normalnych nie potrzebujesz tak dużej próbki, jak rozkład bardzo nietypowy.
Oto kilka symulacji, które możesz uruchomić w R, aby to sprawdzić. Po pierwsze, oto kilka rozkładów populacji.
Następne są symulacje próbek z rozkładów populacji. W każdym z tych wierszy „10” oznacza wielkość próby, „100” oznacza liczbę próbek, a funkcja określa rozkład populacji. Wytwarzają histogramy średnich próbek.
Aby test t był prawidłowy, histogramy powinny być prawidłowe.
Przydatność testu t
Muszę zauważyć, że cała wiedza, którą właśnie przekazałem, jest nieco przestarzała; teraz, gdy mamy komputery, możemy zrobić lepiej niż testy t. Jak zauważa Frank, prawdopodobnie chcesz używać testów Wilcoxona wszędzie tam, gdzie uczono cię przeprowadzać test t-testowy.
źródło
Twierdzenie o granicy centralnej jest mniej przydatne, niż mogłoby się wydawać w tym kontekście. Po pierwsze, jak już ktoś zauważył, nie wiadomo, czy obecny rozmiar próbki jest „wystarczająco duży”. Po drugie, CLT polega bardziej na osiągnięciu pożądanego błędu typu I niż na błędzie typu II. Innymi słowy, test t może być niekonkurencyjny pod względem mocy. Dlatego test Wilcoxona jest tak popularny. Jeśli normalność się utrzymuje, jest to 95% tak samo skuteczne jak test t. Jeśli normalność się nie utrzymuje, może być arbitralnie bardziej wydajna niż test t.
źródło
Zobacz moją poprzednią odpowiedź na pytanie dotyczące odporności testu t .
W szczególności polecam bawić się apletem onlinestatsbook .
Poniższy obraz oparty jest na następującym scenariuszu:
Uzyskana symulacja sugeruje, że zamiast 5% błędów typu I, otrzymywałem tylko 4,5% błędów typu I.
To, czy uważasz to za solidne, zależy od twojej perspektywy.
źródło
edit : duh, per @ whuberer catch w komentarzu, podany przeze mnie przykład nie miał średniej zero, więc testowanie średniej wartości zero nie ma nic wspólnego ze współczynnikiem typu I.
Ponieważ przykład loterii często ma zerowe odchylenie standardowe próbki, dławiki w teście. Zamiast tego podam przykładowy kod wykorzystujący rozkład Lamberta W x Gaussa Goerga . Rozkład, którego tu używam, ma odchylenie około 1355.
Ten kod podaje empiryczną częstotliwość odrzucania na poziomie nominalnym 0,05 dla różnych wielkości próbek. W przypadku próbki o wielkości 50 wskaźnik empiryczny wynosi 0,40 (!); dla wielkości próby 250, 0,29; dla wielkości próby 1000, 0,21; dla wielkości próby 2000, 0,18. Najwyraźniej w teście t dla jednej próbki występuje zniekształcenie.
źródło
Twierdzenie o granicy centralnej ustala (w wymaganych warunkach), że licznik statystyki t jest asymptotycznie normalny. Statystyka t ma również mianownik. Aby mieć rozkład t, potrzebujesz mianownika, który będzie niezależny i pierwiastek kwadratowy z chi-kwadrat-na-jego-df.
I wiemy, że to nie będzie niezależne (to charakteryzuje normalność!)
Twierdzenie Słuckiego w połączeniu z CLT dałoby ci, że statystyka t jest asymptotycznie normalna (ale niekoniecznie w bardzo użytecznym tempie).
Jakie twierdzenie wykazałoby, że statystyka t jest w przybliżeniu rozkładem t, gdy występuje nienormalność i jak szybko się pojawia? (Oczywiście, w końcu t- również zbliży się do normy, ale zakładamy, że przybliżenie do innego przybliżenia będzie lepsze niż zwykłe przybliżenie normalne ...)
źródło
Tak, centralne twierdzenie graniczne mówi nam, że to prawda. Tak długo, jak unikasz cech bardzo gruboogoniastych, nienormalność nie stwarza problemów w próbkach od średnich do dużych.
Oto pomocny artykuł przeglądowy;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Test Wilcoxona (wspomniany przez innych) może mieć straszliwą moc, gdy alternatywą nie jest zmiana lokalizacji oryginalnej dystrybucji. Ponadto sposób pomiaru różnic między rozkładami nie jest przechodni.
źródło
O zastosowaniu testu Wilcoxona-Manna-Whitneya jako alternatywy Polecam artykuł Test Wilcoxona-Mana-Whitneya pod kontrolą
Jako test średnich lub median test Wilcoxona – Manna – Whitneya (WMW) może być poważnie nieporuszony w przypadku odchyleń od modelu czystego przesunięcia.
Oto rekomendacje autorów artykułu:
Transformacja rang może zmieniać środki, odchylenia standardowe i nachylenia dwóch próbek w różny sposób. Jedyną sytuacją, w której transformacja rang jest gwarantowana, aby osiągnąć korzystny efekt, jest wtedy, gdy rozkłady są identyczne, a wielkości próbek są równe. W przypadku odchyleń od tych raczej ścisłych założeń wpływ transformacji rang na momenty próbne jest nieprzewidywalny. W badaniu symulacyjnym pracy test WMW został porównany z testem Flignera-Policello (FP), testem Brunnera-Munzela (BM), testem dwóch prób T (T), testem Welcha U (U), oraz test Welch U na szeregach (RU). Cztery testy oparte na rangach (WMW, FP, BM i RU) działały podobnie, chociaż test BM był często nieco lepszy niż inne. Gdy rozmiary próbek były równe, testy parametryczne (T i U) były lepsze od testów opartych na rangach pod hipotezą zerową o równych średnich, ale nie pod hipotezą zerową o równych medianach. Gdy rozmiary próbek były nierówne, testy BM, RU i U działały najlepiej. W przypadku kilku ustawień niewielkie zmiany właściwości populacji doprowadziły do dużych zmian w wydajności testów. Podsumowując, przybliżony test WMW na dużej próbce może być kiepską metodą porównywania średnich lub median dwóch populacji, chyba że dwa rozkłady mają takie same kształty i równe skale. Problem ten wydaje się także w różnym stopniu dotyczyć dokładnego testu WMW, testu FP, testu BM i testu Welch U na szeregach. Korzystając z testu WMW, autorzy zalecają dokładne zbadanie właściwości ocenianych próbek pod kątem oznak skośności i niejednorodności wariancji.
źródło