Jak obliczyć przedział ufności średniej w próbce o rozkładzie innym niż normalny?
Rozumiem, że metody bootstrap są tutaj powszechnie stosowane, ale jestem otwarty na inne opcje. Podczas gdy szukam opcji nieparametrycznej, jeśli ktoś może mnie przekonać, że rozwiązanie parametryczne jest prawidłowe, byłoby dobrze. Rozmiar próbki wynosi> 400.
Gdyby ktoś mógł podać próbkę w R, byłoby to bardzo mile widziane.
Odpowiedzi:
Przede wszystkim sprawdziłbym, czy średnia jest odpowiednim wskaźnikiem dla danego zadania. Jeśli szukasz „typowej / lub centralnej wartości” przekrzywionego rozkładu, średnia może wskazywać na raczej niereprezentatywną wartość. Rozważ log-normalną dystrybucję:
Średnia (czerwona linia) jest raczej daleko od dużej ilości danych. 20% średnia obcięta (zielona) i mediana (niebieska) są bliższe wartości „typowej”.
Wyniki zależą od rodzaju „nienormalnego” rozkładu (pomocny byłby histogram rzeczywistych danych). Jeśli nie jest przekrzywiony, ale ma ciężkie ogony, twoje CI będą bardzo szerokie.
W każdym razie uważam, że ładowanie początkowe rzeczywiście jest dobrym podejściem, ponieważ może również zapewnić asymetryczne CI.
R
Pakietsimpleboot
jest dobry początek:... daje następujący wynik:
źródło
kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877
s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197
2*s*qnorm(0.975)/sqrt(n) = 0.2678999
kappa*s/(6*n) = 0.00222779
kappa
źródło
Wypróbuj rozkład log-normalny, obliczając:
Otrzymasz asymetryczny przedział ufności wokół oczekiwanej wartości (która nie jest średnią z surowych danych).
źródło