Oto wykres QQ dla mojej próbki (zwróć uwagę na logarytmiczną oś Y); :
Jak wskazał whuber, oznacza to, że leżący u podstaw rozkład jest przekrzywiony w lewo (prawy ogon jest krótszy).
shapiro.test
Moje pytanie brzmi: czy to wystarcza w praktyce do dalszej analizy przy założeniu (log-) normalności? W szczególności chciałbym obliczyć przedziały ufności dla średnich podobnych próbek, stosując przybliżoną metodę Coxa i Landa (opisaną w pracy: Zou, GY, Cindy Yan Huo i Taleban, J. (2009). Proste przedziały ufności dla średnie logarytmiczne i ich różnice w aplikacjach środowiskowych. Environmetrics 20, 172–180):
ci <- function (x) {
y <- log(x)
n <- length(y)
s2 <- var(y)
m <- mean(y) + s2 / 2
z <- qnorm(1 - 0.05 / 2) # 95%
#z <- qnorm(1 - 0.10 / 2) # 90%
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
return(c(exp(m - d), exp(m + d)))
}
Zauważyłem, że przedziały ufności są zwykle wyśrodkowane wokół punktu, który jest nieco powyżej rzeczywistej średniej próbki. Na przykład:
> mean(x)
[1] 82.3076
> y <- log(x)
> exp(mean(y) + var(y) / 2)
[1] 91.22831
interpretation
lognormal
qq-plot
Vegard
źródło
źródło
Odpowiedzi:
Dane te mają krótki ogon w porównaniu z rozkładem logarytmicznym, podobnie jak rozkład gamma:
Niemniej jednak, ponieważ dane są mocno przesunięte w prawo, możemy oczekiwać, że największe wartości będą odgrywać ważną rolę w szacowaniu średniej i przedziału ufności. Dlatego powinniśmy oczekiwać, że estymator logarytmiczny (LN) będzie miał tendencję do przeszacowywania średniej i dwóch granic ufności .
Sprawdźmy i, dla porównania, zastosujmy zwykłe estymatory: to znaczy średnią próbki i jej przedział ufności dla teorii normalnej. Należy zauważyć, że zwykłe estymatory opierają się tylko na przybliżonej normalności średniej próbki , a nie danych, i - przy tak dużym zestawie danych - można oczekiwać, że będą działać dobrze. Aby to zrobić, potrzebujemy niewielkiej modyfikacji
ci
funkcji:Oto funkcja równoległa dla szacunków teorii normalnej:
Dane wyjściowe zastosowane do tego symulowanego zestawu danych to
ci.u
Teraz jest jasne, że lognormalne procedury mają tendencję do przeceniania średniej i granic ufności, podczas gdy zwykłe procedury wykonują dobrą robotę. Możemy oszacować zakres procedur przedziału ufności:
Obliczenia te mówią:
Dolna granica LN nie obejmie rzeczywistej średniej przez około 22,3% czasu (zamiast zamierzonego 2,5%).
Zwykły dolny limit nie pokryje prawdziwej średniej przez około 2,3% czasu, blisko zamierzonego 2,5%.
Górna granica LN zawsze będzie przekraczać rzeczywistą średnią (zamiast spadać poniżej niej 2,5% czasu zgodnie z zamierzeniami). To sprawia, że jest to dwustronny 100% - (22,3% + 0%) = 77,7% przedział ufności zamiast 95% przedział ufności.
Zwykła górna granica nie obejmie prawdziwej średniej przez około 100 - 96,5 = 3,5% czasu. Jest to nieco więcej niż zamierzona wartość 2,5%. Zwykłe limity obejmują zatem dwustronny 100% - (2,3% + 3,5%) = 94,2% przedział ufności zamiast 95% przedział ufności.
Zmniejszenie zasięgu nominalnego z 95% do 77,7% dla przedziału logarytmicznego jest straszne. Zmniejszenie do 94,2% w zwykłym przedziale czasu wcale nie jest złe i można je przypisać efektowi skosu (surowych danych, a nie ich logarytmów).
Musimy stwierdzić, że dalsze analizy średniej nie powinny zakładać logarytmiczności.
Bądź ostrożny! Niektóre procedury (takie jak limity prognozy) będą bardziej wrażliwe na skośność niż te granice ufności dla średniej, więc może być konieczne uwzględnienie ich skośnego rozkładu. Jednak wydaje się mało prawdopodobne, aby lognormalne procedury działały dobrze z tymi danymi dla praktycznie każdej zamierzonej analizy.
źródło
abline()
zamiastqqline()
(który tworzy inną linię) w pierwszym przykładzie?trial()
funkcja nie używa swoich argumentów.trial
:trial <- function(y) { x <- sample(y, length(y), TRUE); cbind(ci(x), ci.u(x)) }
. Następnie wydać tylko jedno poleceniesim <- sapply(1:5000, function(i) trial(x))
. Możeszsim
później zbadać histogramy sześciu rzędów .