Rozważ losowy zestaw liczb, które są zwykle dystrybuowane:
x <- rnorm(n=1000, mean=10)
Chcielibyśmy poznać średnią i błąd standardowy średniej, dlatego wykonujemy następujące czynności:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Świetny!
Załóżmy jednak, że niekoniecznie wiemy, że nasza pierwotna dystrybucja przebiega normalnie. Logujemy transformacje danych i wykonujemy te same standardowe obliczenia błędów.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Fajnie, ale teraz musimy dokonać transformacji wstecznej, aby uzyskać odpowiedź w jednostkach NIE w dziennikach.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Moje pytanie: Dlaczego w przypadku rozkładu normalnego błąd standardowy różni się w zależności od tego, czy został obliczony na podstawie samego rozkładu, czy też został przekształcony, obliczony i poddany transformacji wstecznej? Uwaga: środki wyszły tak samo, niezależnie od transformacji.
EDYCJA nr 1: Ostatecznie jestem zainteresowany obliczeniem średniej i przedziałów ufności dla danych normalnie rozłożonych, więc jeśli możesz podać jakieś wskazówki, jak obliczyć 95% CI na przekształconych danych, w tym jak przekształcić wstecz na ich jednostki macierzyste , Doceniłbym to!
EDYCJA KOŃCOWA nr 1
EDYCJA 2: Próbowałem użyć funkcji kwantylu, aby uzyskać 95% przedziały ufności:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Tak więc zbiega się to z tą samą odpowiedzią, co jest dobre. Jednak użycie tej metody nie zapewnia dokładnie tego samego interwału przy użyciu niestandardowych danych z „małymi” wielkościami próbek:
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Którą metodę można uznać za „bardziej poprawną”. Zakładam, że ktoś wybrałby najbardziej zachowawczy szacunek?
Jako przykład, czy zgłosiłbyś ten wynik dla danych nienormalnych (t) jako mających średnią 0,92 jednostki z 95% przedziałem ufności wynoszącym [0,211, 4,79]?
KONIEC EDYCJI # 2
Dziękuję za Twój czas!
Odpowiedzi:
Twój główny problem z początkowymi obliczeniami polega na tym, że nie ma dobrego powodu, dla którego powinien być podobny do . Na ogół jest zupełnie inaczej.misd ( log( Y) ) sd ( Y)
W niektórych sytuacjach można obliczyć przybliżone przybliżenie z poprzez rozszerzenie Taylora .sd ( Y) sd ( log( Y) )
Jeśli uznamy za zmienną losową w skali logarytmicznej, tutajX sol( X) = exp( X)
JeśliVar ( exp( X) ) ≈ exp( μX)2)σ2)X
następniesd ( exp( X) ) ≈ exp( μX) σX
Te pojęcia przenoszą się na rozkłady próbkowania.
Zwykle działa to dość dobrze, jeśli odchylenie standardowe jest naprawdę małe w porównaniu ze średnią, jak w twoim przykładzie.
Jeśli chcesz przekształcić element CI dla parametru , działa to poprzez transformację punktów końcowych.
Jeśli próbujesz przekształcić z powrotem w celu uzyskania oszacowania punktu i interwału dla średniej na oryginalnej (niezalogowanej) skali, będziesz również chciał rozdzielić oszacowanie średniej (patrz powyższy link): , więc ( bardzo ) przybliżony duży przedział prób dla średniej może wynosić , gdzie są górną i dolną granicą przedziału skali logarytmicznej, a jest pewnym spójnym oszacowaniem .( c . Exp ( L ) , c . Exp ( U ) ) L , U c 1 + σE(exp(X))≈exp(μX)⋅(1+σ2X/2) (c.exp(L),c.exp(U)) L,U c 1+σ2X/2
Jeśli twoje dane są w przybliżeniu normalne w skali logów, możesz potraktować je jako problem tworzenia przedziału dla logarytmicznej średniej.
źródło
Wygląda na to, że skutecznie potrzebujesz standardowego błędu geometrycznego, zbliżonego do średniej geometrycznej
exp(mean(log(x)))
.Chociaż może się wydawać rozsądne obliczenie tego jako:
Ty i inni już zauważyliście, że to nie jest poprawne z kilku powodów. Zamiast tego użyj:
Jest to średnia geometryczna pomnożona przez błąd standardu logarytmicznego. Powinno to całkiem dobrze przybliżyć naturalny błąd standardowy.
Źródło: https://www.jstor.org/stable/pdf/2235723.pdf
źródło