Analizowałem eksperyment z ANOVA z powtarzanymi pomiarami. ANOVA to 3x2x2x2x3 z 2 czynnikami między podmiotami i 3 w obrębie (N = 189). Poziom błędu jest zmienną zależną. Rozkład poziomów błędu ma skos 3,64, a kurtoza 15,75. Skośność i kurtoza są wynikiem 90% poziomu błędu, co oznacza, że wynosi 0. Czytanie niektórych poprzednich wątków na testach normalności tutaj mnie trochę myliło. Pomyślałem, że jeśli masz dane, które nie są normalnie dystrybuowane, w twoim najlepszym interesie leży ich transformacja, jeśli to możliwe, ale wydaje się, że wiele osób myśli, że analiza danych niestandardowych za pomocą ANOVA lub testu T jest akceptowalna. Czy mogę ufać wynikom ANOVA?
(FYI, w przyszłości zamierzam analizować ten typ danych w R za pomocą modeli mieszanych o rozkładzie dwumianowym)
Odpowiedzi:
Podobnie jak inne testy parametryczne, analiza wariancji zakłada, że dane pasują do rozkładu normalnego. Jeśli twoja zmienna pomiarowa nie jest normalnie rozłożona, możesz zwiększyć prawdopodobieństwo fałszywie dodatniego wyniku, jeśli przeanalizujesz dane za pomocą anova lub innego testu, który zakłada normalność. Na szczęście anova nie jest bardzo wrażliwa na umiarkowane odchylenia od normalności; badania symulacyjne, z wykorzystaniem różnych rozkładów niestandardowych, wykazały, że to naruszenie nie ma dużego wpływu na współczynnik fałszywie dodatnich wyników (Glass i wsp. 1972, Harwell i wsp. 1992, Lix i wsp. 1996). Wynika to z faktu, że gdy pobierasz dużą liczbę losowych próbek z populacji, średnie z tych próbek są w przybliżeniu normalnie rozmieszczone, nawet jeśli populacja nie jest normalna.
Możliwe jest przetestowanie dobroci dopasowania zestawu danych do rozkładu normalnego. Nie sugeruję, abyś to zrobił, ponieważ wiele zestawów danych, które są znacznie nienormalne, byłoby idealnie odpowiednich dla anova.
Zamiast tego, jeśli masz wystarczająco duży zestaw danych, proponuję po prostu spojrzeć na histogram częstotliwości. Jeśli wygląda to mniej więcej normalnie, śmiało wykonaj anovę. Jeśli wygląda na rozkład normalny, który został zepchnięty na bok, jak dane siarczanu powyżej, powinieneś spróbować różnych transformacji danych i zobaczyć, czy którykolwiek z nich sprawia, że histogram wygląda bardziej normalnie. Jeśli to nie zadziała, a dane nadal wyglądają na bardzo nietypowe, prawdopodobnie nadal można analizować dane za pomocą anova. Możesz jednak chcieć to przeanalizować za pomocą testu nieparametrycznego. Prawie każdy parametryczny test statystyczny ma nieparametryczny substytut, taki jak test Kruskala – Wallisa zamiast jednostronnej anowy, test rang Wilcoxona zamiast sparowanego testu t oraz korelacja rang Spearmana zamiast regresji liniowej. Te testy nieparametryczne nie zakładają, że dane pasują do rozkładu normalnego. Zakładają jednak, że dane w różnych grupach mają taki sam rozkład między sobą; jeśli różne grupy mają różne rozkłady kształtów (na przykład jedna jest pochylona w lewo, inna jest pochylona w prawo), test nieparametryczny może nie być lepszy niż parametryczny.
Referencje
źródło
Dixon (2008) bardzo konkretnie, odnosząc się do wskaźników błędów jako DV, bardzo ostrożnie pokazuje, że testowanie zerowej hipotezy za pomocą ANOVA może powodować zarówno wzrost wskaźników fałszywych alarmów (wywoływanie efektów „znaczących”, gdy nie są), jak i zwiększony wskaźnik błędów (brak rzeczywistych efektów). Pokazuje także, że modelowanie efektów mieszanych, określające błąd dwumianowy, jest bardziej odpowiednim podejściem do analizy danych dotyczących częstości.
źródło
Nie możesz ufać swojej ANOVA z tak dużym przekrzywieniem i dużą liczbą zer. Bardziej odpowiednią metodą byłoby użycie liczby błędów jako DV (a tym samym przekształcenie DV w dane zliczania) i wykonanie analizy Poissona. Takie podejście wymagałoby zastosowania analizy efektów mieszanych i określenia rodziny rozkładów błędów jako Poissona. Artykuł Dixona (2008) * wspomniany przez Mike'a Lawrence'a wykorzystuje analizę efektów mieszanych w R, ale z wynikami dwumianowymi. Całkowicie przeszedłem do robienia R dla większości moich analiz z powtarzanymi pomiarami, ponieważ tak wiele moich zmiennych wyniku jest dwumianowych. Odpowiedni pakiet R to
lme4
.źródło
Juan zaoferował wiele, chociaż powtórzę innym i powtórzę, że dla najlepszej dokładności same zmienne mogą być nienormalne, o ile ich reszty nie są. Uproszczona i nieco bardziej uporządkowana odpowiedź (za pomocą schematu blokowego z adnotacjami) jest dostępna na stronie yellowbrickstats.com .
źródło
Problemem są tutaj efekty sufitowe. Test nieparametryczny jest twoim najbezpieczniejszym zakładem, chociaż ANOVA są odporne na to naruszenie normalności, jeśli n jest duże. Zazwyczaj ludzie używają histogramu, aby to sprawdzić, ale jeśli problem dotyczy reszt, może być bardziej zaawansowany. Pamiętaj również, JAK to wpływa na twoje wyniki (nie tylko to). Pallant (2007) prawdopodobnie powiedziałby, że zwiększa to twoją szansę na błąd pierwszego typu, więc jeśli zmniejszysz krytyczną wartość alfa, złagodzisz to.
źródło