Rozważ rozkład beta dla danego zestawu ocen w [0,1]. Po obliczeniu średniej:
Czy istnieje sposób na zapewnienie przedziału ufności wokół tego środka?
mean
beta-distribution
dominujący
źródło
źródło
Odpowiedzi:
Chociaż istnieją określone metody obliczania przedziałów ufności dla parametrów w rozkładzie beta, opiszę kilka ogólnych metod, które można zastosować do (prawie) wszystkich rodzajów rozkładów , w tym rozkładu beta, i które można łatwo wdrożyć w R .
Przedziały ufności prawdopodobieństwa profilu
Zacznijmy od oszacowania maksymalnego prawdopodobieństwa z odpowiednimi przedziałami ufności prawdopodobieństwa profilu. Najpierw potrzebujemy przykładowych danych:
Rzeczywista / teoretyczna średnia to
Teraz musimy stworzyć funkcję do obliczania funkcji prawdopodobieństwa ujemnego dziennika dla próbki z rozkładu beta, ze średnią jako jednym z parametrów. Możemy użyć tej
dbeta()
funkcji, ale ponieważ nie używa ona parametryzacji obejmującej średnią, musimy wyrazić jej parametry ( α i β ) jako funkcję średniej i kilku innych parametrów (takich jak odchylenie standardowe):Aby znaleźć oszacowanie maksymalnego prawdopodobieństwa, możemy użyć
mle()
funkcji wstats4
bibliotece:Na razie zignoruj ostrzeżenia. Są one spowodowane przez algorytmy optymalizujące próbujące nieprawidłowe wartości parametrów, dające wartości ujemne dla α i / lub β . (Aby uniknąć ostrzeżenia, możesz dodać
lower
argument i zmienić zastosowaną optymalizacjęmethod
).Teraz mamy zarówno szacunki, jak i przedziały ufności dla naszych dwóch parametrów:
Należy pamiętać, że zgodnie z oczekiwaniami przedziały ufności nie są symetryczne:
(Druga zewnętrzna magenta pokazuje 95% przedział ufności.)
Zauważ też, że nawet przy zaledwie 10 obserwacjach otrzymujemy bardzo dobre szacunki (wąski przedział ufności).
Alternatywnie
mle()
możesz użyćfitdistr()
funkcji zMASS
pakietu. To również oblicza estymator maksymalnego prawdopodobieństwa i ma tę zaletę, że wystarczy podać gęstość, a nie ujemne prawdopodobieństwo dziennika, ale nie daje przedziałów ufności profilu, tylko asymptotyczne (symetryczne) przedziały ufności.Lepszą opcją jest
mle2()
(i powiązane funkcje) zbbmle
pakietu, który jest nieco bardziej elastyczny i wydajny niżmle()
i daje nieco ładniejsze wykresy.Przedziały ufności Bootstrap
Inną opcją jest użycie bootstrapu. Jest bardzo łatwy w użyciu w R i nie musisz nawet podawać funkcji gęstości:
Bootstrap ma tę dodatkową zaletę, że działa, nawet jeśli dane nie pochodzą z wersji beta.
Asymptotyczne przedziały ufności
W przypadku przedziałów ufności dla średniej, nie zapominajmy o starych dobrych asymptotycznych przedziałach ufności opartych na centralnym twierdzeniu granicznym (i rozkładzie t ). Tak długo, jak mamy duży rozmiar próbki (więc obowiązuje CLT i rozkład średniej próbki jest w przybliżeniu normalny) lub duże wartości zarówno α, jak i β (tak, że sam rozkład beta jest w przybliżeniu normalny), działa dobrze. Tutaj nie mamy żadnego, ale przedział ufności wciąż nie jest taki zły:
W przypadku nieznacznie dużych wartości n (i niezbyt ekstremalnych wartości dwóch parametrów) asymptotyczny przedział ufności działa wyjątkowo dobrze.
źródło
Sprawdź regresję beta. Dobre wprowadzenie do tego, jak to zrobić za pomocą R, można znaleźć tutaj:
http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf
Innym (naprawdę łatwym) sposobem konstruowania przedziału ufności byłoby zastosowanie nieparametrycznego podejścia przypominającego. Wikipedia ma dobre informacje:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Również fajne wideo tutaj:
http://www.youtube.com/watch?v=ZCXg64l9R_4
źródło