Zastosowane liniowe modele statystyczne Kutnera i in. stwierdza, co do odstępstw od założenia normalności modeli ANOVA: Kurtoza rozkładu błędów (mniej lub bardziej pikowany niż rozkład normalny) jest ważniejsza niż skośność rozkładu pod względem wpływu na wnioskowanie .
Jestem nieco zdziwiony tym stwierdzeniem i nie udało mi się znaleźć żadnych powiązanych informacji, ani w książce, ani w Internecie. Jestem zdezorientowany, ponieważ dowiedziałem się również, że wykresy QQ z ciężkimi ogonami wskazują, że założenie normalności jest „wystarczająco dobre” dla modeli regresji liniowej, podczas gdy przekrzywione wykresy QQ są bardziej niepokojące (tzn. Może być odpowiednia transformacja) .
Czy mam rację, że to samo rozumowanie dotyczy ANOVA i że ich wybór słów ( ważniejszy pod względem wpływu na wnioski ) został po prostu źle wybrany? Tj. Wypaczony rozkład ma poważniejsze konsekwencje i należy go unikać, podczas gdy niewielka ilość kurtozy może być do zaakceptowania.
EDYCJA: Jak powiedział rolando2, trudno stwierdzić, że jedno jest ważniejsze od drugiego we wszystkich przypadkach, ale szukam jedynie ogólnego wglądu. Moim głównym problemem jest to, że nauczono mnie, że w prostej regresji liniowej wykresy QQ z cięższymi ogonami (= kurtoza?) Są OK, ponieważ test F jest dość odporny na to. Z drugiej strony skośne wykresy QQ (w kształcie paraboli) są zwykle większym problemem. Wydaje się to być sprzeczne z wytycznymi mojej instrukcji ANOVA, mimo że modele ANOVA można konwertować na modele regresji i powinny one mieć takie same założenia.
Jestem przekonany, że coś przeoczam lub mam fałszywe założenie, ale nie mogę zrozumieć, co to może być.
Odpowiedzi:
Trudność polega na tym, że skośność i kurtoza są zależne; ich efektów nie można całkowicie oddzielić.
Problem polega na tym, że jeśli chcesz zbadać efekt bardzo wypaczonego rozkładu, musisz także mieć rozkład o wysokiej kurtozie.
* (zwykła skalowana kurtoza czwartej chwili, nie kurtoza nadmierna)
Khan i Rayner (o którym wspomniano we wcześniejszej odpowiedzi) współpracują z rodziną, która pozwala na pewne badanie wpływu skosu i kurtozy, ale nie mogą uniknąć tego problemu, więc ich próba ich oddzielenia poważnie ogranicza zakres, w jakim efekt skośność można badać.
Na przykład, jeśli chcesz zobaczyć efekt wysokiej skośności - powiedzmy skośność> 5, nie możesz uzyskać rozkładu z kurtozą mniejszego niż 26!
Więc jeśli chcesz zbadać wpływ wysokiej skośności, nie możesz uniknąć badania wpływu wysokiej kurtozy. W konsekwencji, jeśli spróbujesz je rozdzielić, w efekcie nie będziesz w stanie ocenić efektu zwiększenia skośności do wysokich poziomów.
To powiedziawszy, przynajmniej dla rozważanej przez nich rodziny dystrybucyjnej oraz w granicach, jakie stawiają między nimi relacje, dochodzenie Khan i Raynera wydaje się sugerować, że głównym problemem jest kurtoza.
źródło
Ten problem został rozwiązany w „Odporność na nienormalność typowych testów dla problemu lokalizacji wielu próbek” autorstwa Khan i Rayner.
Okazało się, że testy ANOVA są znacznie bardziej dotknięte kurtozą niż skośnością, a efekt skośności nie jest związany z jego kierunkiem.
Jeśli podejrzewa się odchylenia od normalności, lepszym wyborem może być test Kruskala-Wallisa. Test Kruskala-Wallisa jest bardziej odporny na odchylenia od normalności, ponieważ bada hipotezę, że mediany leczenia są identyczne. ANOVA sprawdza hipotezę, że środki leczenia są identyczne.
źródło