Sprawdzanie założeń ANOVA

16

Kilka miesięcy temu opublikowałem pytanie dotyczące testów homoscedastyczności w R na SO, a Ian Fellows odpowiedział na to (sparafrazuję jego odpowiedź bardzo luźno):

Testy homoscedastyczności nie są dobrym narzędziem do testowania dopasowania modelu. Przy małych próbkach nie masz wystarczającej mocy, aby wykryć odstępstwa od homoscedastyczności, podczas gdy przy dużych próbkach masz „dużą moc”, więc masz większe szanse na sprawdzenie nawet trywialnych odstępstw od równości.

Jego wspaniała odpowiedź pojawiła się jako uderzenie w moją twarz. Sprawdzałem założenia normalności i homoscedastyczności za każdym razem, gdy prowadziłem ANOVA.

Jaka jest Twoim zdaniem najlepsza praktyka przy sprawdzaniu założeń ANOVA?

aL3xa
źródło

Odpowiedzi:

11

W zastosowanych ustawieniach zazwyczaj ważniejsze jest wiedzieć, czy jakiekolwiek naruszenie założeń jest problematyczne dla wnioskowania.

Testy założenia oparte na testach istotności rzadko są przedmiotem zainteresowania w dużych próbkach, ponieważ większość testów wnioskowania jest odporna na łagodne naruszenia założeń.

Jedną z miłych cech graficznych ocen założeń jest to, że skupiają one uwagę na stopniu naruszenia, a nie na statystycznym znaczeniu jakiegokolwiek naruszenia.

Możliwe jest jednak skupienie się na numerycznych podsumowaniach danych, które określają ilościowo stopień naruszenia założeń, a nie istotność statystyczną (np. Wartości skośności, wartości kurtozy, stosunek największych do najmniejszych odchyleń grupowych itp.). Można również uzyskać standardowe błędy lub przedziały ufności dla tych wartości, które będą mniejsze wraz z większymi próbkami. Ta perspektywa jest zgodna z ogólną ideą, że istotność statystyczna nie jest równoważna z praktyczną.

Jeromy Anglim
źródło
1
+1 za świetną odpowiedź, która wszystko podsumowuje. Sposób zastosowania wspomnianych procedur numerycznych jest ładnie i odpowiednio opisany w Tabachniku ​​i Fidell's Using Multivariate Statistics (dla SPSS i SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/... (Ale zobacz Erraty na towarzysząca strona internetowa)
Henrik
Cóż, myślę, że większość podsumowań czasu, takich jak skośność i kurtoza, ma niewielką wartość, ich zmienność próbkowania jest po prostu zbyt duża. Można jednak rozważyć zastąpienie ich L_skewness i L-kurtosis.
kjetil b halvorsen
@kjetilbhalvorsen Wydaje mi się, że zależy to od rodzaju próbek, z którymi zwykle pracujesz. Z mojego doświadczenia wynika, że ​​wykresy i statystyki skośności są bardzo pomocne w zrozumieniu rozkładu danych.
Jeromy Anglim
@Jeromy Anglim: OK. Więc myślę, że zwykle masz bardzo duże próbki! Czy próbowałeś uruchomić swoje współczynniki skośności / kurtozy?
kjetil b halvorsen
9

Kilka wykresów będzie zwykle znacznie bardziej pouczających niż wartość p z testu normalności lub homoskedastyczności. Wykreślić zmienne zależne względem zmiennych niezależnych. Wykreślić obserwacje przeciw atakom. Wykreśl resztki względem zmiennych niezależnych. Zbadaj wszystko, co wygląda dziwnie na tych działkach. Jeśli coś nie wygląda dziwnie, nie martwiłbym się znaczącym testem założenia.

Stephan Kolassa
źródło
Dobra rada przez większość czasu, ale co z przypadkiem dużych zbiorów danych, w których nie można ręcznie przejrzeć wszystkich danych ręcznie?
dsimcha
1
@dsimcha Zależy to również od wielkości próbki na grupę. Wiadomo na przykład, że gdy próbki są równej wielkości, test t jest odporny na odstępstwo od założenia homoscedastyczności; jeśli , to prawdopodobieństwo błędu typu I będzie wynosić < α, jeśli większe σ 2 jest związane z większą próbką i odwrotnie . Patrz: Zar, JH Biostatistic Analysis (4th Ed., Prentice Hall, 1998) w celu uzyskania dalszych odniesień. n1n2<ασ2
chl
2
@dsimcha re duże zbiory danych: zależy od tego, co rozumiesz przez „duży”. Wiele obserwacji? Używaj dobrej grafiki (boxplot, jittred dotplots, sunflowerplots). Wiele niezależnych zmiennych? Tak, masz rację ... Ale jeśli masz tyle IV, że nie możesz nakreślić DV dla każdego IV, w ogóle zapytałbym o użycie ANOVA - wygląda na to, że interpretacja w jakiejkolwiek może być trudna walizka. Niektóre inteligentne metody uczenia maszynowego mogą być lepsze (Brian D. Ripley: „Parafrazując prowokacyjnie,„ uczenie maszynowe to statystyki pomniejszone o wszelkie sprawdzanie modeli i założeń ”.)
Stephan Kolassa
Dobry komentarz, +1. Chociaż to konkretne pytanie dotyczy ANOVA, podczas pisania odpowiedzi myślałem na bardziej ogólnym poziomie o kwestii wykresów vs. testów.
dsimcha
4

Oto kilka bardzo dobrych przewodników internetowych do sprawdzania założeń ANOVA i postępowania w razie niepowodzenia. Oto jeden To jest inny

Zasadniczo twoje oko jest najlepszym sędzią, więc zrób analizę eksploracyjną . Oznacza to, że wykreśl dane - histogramy i wykresy pudełkowe są dobrym sposobem oceny normalności i homoscedascity. I pamiętaj, że ANOVA jest odporna na drobne naruszenia tych zasad.

Thylacoleo
źródło
4

Wykresy QQ są całkiem dobrym sposobem na wykrycie nienormalności.

Aby uzyskać homoscedastyczność, spróbuj testu Levene'a lub testu Browna-Forsythe'a. Oba są podobne, choć BF jest nieco bardziej solidny. Są mniej wrażliwe na nienormalność niż test Bartletta, ale mimo to uważam, że nie są najbardziej niezawodne przy małych próbkach.

Fabuła QQ

Test Browna-Forsythe'a

Test Levene'a

Christopher Aden
źródło
Wykresy rozkładu względnego (lub instancji, w porównaniu do rozkładu normalnego) mogą być dobrym zamiennikiem, ponieważ ich interpretacja może być bardziej zrozumiała dla początkujących.
kjetil b halvorsen
3

Zgadzam się z innymi, że testowanie istotności dla założeń jest problematyczne.

kk

Metody półparametryczne (ranga), takie jak testy Wilcoxona i Kruskala-Wallisa, przyjmują znacznie mniej założeń. Logarytm ECDF powinien być równoległy, aby testy Wilcoxona-Kruskala-Wallisa miały maksymalną moc (błąd typu I nigdy nie stanowi dla nich problemu). Liniowość nie jest wymagana. Testy rangowe przyjmują założenia dotyczące powiązania rozkładów różnych grup z innymi, ale nie zakładają kształtu jednego rozkładu.

Frank Harrell
źródło