Dystrybucja danych nie musi być normalna, to dystrybucja próbkowania musi być prawie normalna. Jeśli twoja próbka jest wystarczająco duża, to rozkład próbkowania średnich z rozkładu Landaua powinien być prawie normalny, ze względu na centralne twierdzenie graniczne .
Oznacza to, że powinieneś być w stanie bezpiecznie korzystać z testu t ze swoimi danymi.
Przykład
Rozważmy ten przykład: załóżmy, że mamy populację o logarytmicznym rozkładzie z mu = 0 i sd = 0,5 (wygląda trochę podobnie do Landaua)
Próbujemy więc 30 obserwacji 5000 razy z tego rozkładu za każdym razem, obliczając średnią próbki
I to dostajemy
Wygląda całkiem normalnie, prawda? Jeśli zwiększymy wielkość próbki, będzie to jeszcze bardziej widoczne
Kod R.
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
Zasadniczo stosuje się niezależny test t lub test t dla dwóch próbek w celu sprawdzenia, czy średnie dla dwóch próbek są znacząco różne. Lub, innymi słowy, jeśli istnieje znacząca różnica między średnimi dwóch próbek.
Teraz średnimi z tych 2 próbek są dwie statystyki, które zgodnie z CLT mają rozkład normalny, pod warunkiem zapewnienia wystarczającej liczby próbek. Zauważ, że CLT działa bez względu na rozkład, z którego zbudowana jest średnia statystyka.
Zwykle można zastosować test Z, ale jeśli wariancje są szacowane na podstawie próbki (ponieważ nie jest to znane), wprowadza się dodatkową niepewność, która jest uwzględniana w rozkładzie t. Dlatego stosuje się tutaj test t dla dwóch próbek.
źródło