Załóżmy następującą sytuację:
mamy dużą liczbę (np. 20) z małą wielkością grupy (np. n = 3). Zauważyłem, że jeśli wygeneruję wartości z rozkładu jednorodnego, reszty będą wyglądać w przybliżeniu normalnie, mimo że rozkład błędu jest jednolity. Poniższy kod R demonstruje to zachowanie:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Jeśli spojrzę na resztkę próbki w grupie trzyosobowej, powód takiego zachowania jest jasny:
Ponieważ jest sumą zmiennych losowych o nie różniącym się w przybliżeniu standardowym odchyleniu, jego rozkład jest nieco bliższy rozkładowi normalnemu niż poszczególnym warunkom.
Załóżmy teraz, że mam taką samą sytuację z danymi rzeczywistymi zamiast danych symulowanych. Chcę ocenić, czy istnieją założenia ANOVA dotyczące normalności. Większość zalecanych procedur zaleca kontrolę wzrokową pozostałości (np. Wykres QQ) lub test normalności na pozostałościach. Jak w powyższym przykładzie nie jest to optymalne rozwiązanie dla małych grup.
Czy jest lepsza alternatywa, gdy mam wiele grup małych rozmiarów?
Odpowiedzi:
Praca nad tą odpowiedzią, jeszcze nie do końca. Mam wgląd w to, ale wyjaśnienie zajmuje trochę czasu. W tym celu rozważmy, że odchylenie standardowe jest tendencyjne dla małych liczb. Powodem tego jest to, że jeśli weźmiemy dowolne dwie liczby , arbitralnie przypiszemy średnią próbną do , gdzie średnia populacji, , może równie dobrze znajdować się w dowolnym miejscu na odstęp między lub może to być lub . Oznacza to, że średnio . Zatem tylko wtedy, gdy , to odchylenie staje się małea + ba<b a+b2 ( , b ) σ < σ > b SD < σ n > 100σ (a,b) σ<a σ>b SD<σ n>100 . W przypadku długiej serii SD dla małej liczby próbek obliczenia SD stają się bardziej precyzyjne i, oczywiście, niedokładne.
Teraz zamiast podnieść frustrację, możemy zastosować korektę małej liczby dla naszych SD w normalnych warunkach. (Ha! Jest rozwiązanie naszej nędzy.)
E[μ]SD(n)μ(n)=2n−1−−−√Γ(n2)Γ(n−12)=1−14n−732n2−19128n3+O(n−4) patrzE[μ]
Dla jest to . Co oznacza, że musimy podzielić naszą SD przez tyle, aby oszacować .Γ ( 3n=3 σΓ(32)=π√2≈0.8862269255 σ
Teraz, w przypadku prezentacji, masz także kilka innych rzeczy. Tak się składa, że najlepszą miarą lokalizacji rozkładu jednolitego nie jest średnia. Chociaż zarówno średnia próbki, jak i mediana próbki są obiektywnymi estymatorami punktu środkowego, żadna z nich nie jest tak skuteczna jak środkowy zakres próbki, tj. Średnia arytmetyczna maksimum próbki i minimum próbki, które jest estymatorem obiektywnym dla wariancji UMVU estymator punktu środkowego (a także oszacowanie maksymalnego prawdopodobieństwa).
Teraz przejdźmy do sedna sprawy. Jeśli użyjesz średniej wartości ekstremalnych, wariancja miary lokalizacji będzie mniejsza, pod warunkiem, że Twoje dane są naprawdę jednolicie rozłożone. Może być normalnie rozłożony, ponieważ pojedynczy ogon o ekstremalnej wartości może być normalny. W przypadku tylko 3 próbek odchylenie standardowe będzie wymagało korekty.
źródło