Jaka jest formuła (przybliżona lub dokładna) przedziału predykcji dla losowej zmiennej dwumianowej?
Załóżmy, że , i obserwujemy y (na podstawie Y ). N jest znana.
Naszym celem jest uzyskanie 95% przedział predykcji dla nowego czerpać z .
Estymacja punktowa jest , gdzie p = y . Przedział ufności dla p jest proste, ale nie mogę znaleźć formułę dla przedziału predykcji dlaY. Gdybyśmy wiedzieli,p(zamiast p ), a następnie 95% przedział predykcji właśnie polega znalezieniu quantiles o dwumianowy. Czy coś oczywistego przeoczam?
confidence-interval
binomial
prediction-interval
Statseeker
źródło
źródło
Odpowiedzi:
Ok, spróbujmy tego. Dam dwie odpowiedzi - bayesowską, która moim zdaniem jest prosta i naturalna, i jedną z możliwych częstych.
Rozwiązanie bayesowskie
Zakładamy beta przed na , I, np., P ~ B E T a ( alfa , beta ) , ponieważ model beta dwumianowego jest sprzężone, co oznacza, że rozkład tylny jest również beta dystrybucyjnym parametry α = α + K , β = β + n - K (ja pomocą k w celu określenia liczby sukcesów n badaniach zamiast y ). Zatem wnioskowanie jest znacznie uproszczone. Teraz, jeśli masz wcześniejszą wiedzę na temat prawdopodobnych wartościp p ∼ B e t a ( α , β) α^= α + k , β^= β+ n - k k n y , można go użyć do ustawienia wartości α i β , tj. do zdefiniowania wcześniejszej Beta, w przeciwnym razie można założyć jednolity (nieinformacyjny) wcześniej, z α = β = 1 lub innymi nieinformacyjnymi priorytetami (patrz na przykładtutaj). W każdym razie twój tylny jestp α β α=β=1
W wnioskowaniu bayesowskim liczy się tylko prawdopodobieństwo późniejsze, co oznacza, że kiedy się o tym dowiesz, możesz wyciągać wnioski dla wszystkich innych wielkości w swoim modelu. Chcesz wnioskować na podstawie obserwowalnych : w szczególności na wektorze nowych wyników y = y 1 , … , y m , gdzie m niekoniecznie jest równe n . W szczególności dla każdego j = 0 , … , m , chcemy obliczyć prawdopodobieństwo osiągnięcia dokładnie j sukcesów w następnych m próbach, biorąc pod uwagę, że otrzymaliśmy ky y=y1,…,ym m n j=0,…,m j m k sukcesy w poprzednich próbach; tylna predykcyjna funkcja masy:n
Jednak nasz dwumianowy model oznacza, że warunkowo na str mający pewną wartość, prawdopodobieństwo konieczności j sukcesów w m prób nie zależy od ostatnich wyników: to po prostuY p j m
W ten sposób wyrażenie staje się
Wynikiem tej całki jest dobrze znany rozkład zwany rozkładem dwumianowym: pomijając fragmenty, otrzymujemy okropny wyraz
Nasz punkt oszacowania dla , przy uwzględnieniu straty kwadratowej, jest oczywiście średnią tego rozkładu, tj.j
Teraz spójrzmy na przedział przewidywania. Ponieważ jest to rozkład dyskretny, nie mamy wyrażenia w postaci zamkniętej dla , takiego, że P r ( j 1 ≤ j ≤ j 2 ) = 0,95 . Powodem jest to, że w zależności od tego, jak zdefiniujesz kwantyl, dla dyskretnego rozkładu funkcja kwantylu albo nie jest funkcją, albo jest funkcją nieciągłą. Ale to nie jest duży problem: dla małego m można po prostu zapisać m prawdopodobieństwa P r ( j = 0[j1,j2] Pr(j1≤j≤j2)=0.95 m m i stąd znajdź j 1 , j 2 takie, żePr(j=0|m,n,k),Pr(j≤1|m,n,k),…,Pr(j≤m−1|m,n,k) j1,j2
Oczywiście można znaleźć więcej niż jedną parę, więc idealnie byłoby szukać najmniejszej takiej, aby powyższe było spełnione. Zauważ, że[j1,j2]
są tylko wartościami CMF (Cumulative Mass Function) rozkładu Beta-Binomial, i jako taki istnieje wyrażenie postaci zamkniętej , ale jest to pod względem uogólnionej funkcji hipergeometrycznej, a zatem jest dość skomplikowane. Wolałbym po prostu zainstalować pakiet Rp0,…,pm−1
extraDistr
i wywołać,pbbinom
aby obliczyć CMF dystrybucji Beta-Binomial. W szczególności, jeśli chcesz obliczyć wszystkie prawdopodobieństwa za jednym razem, po prostu napisz:gdzieα β p
alpha
ibeta
są wartościami parametrów Beta przed, tj. i β (a więc 1, jeśli używasz munduru przed p ). Oczywiście wszystko byłoby znacznie prostsze, gdyby R zapewniał funkcję kwantylową dla rozkładu Beta-Dwumianowego, ale niestety nie.Praktyczny przykład z rozwiązaniem bayesowskim
Niech , k = 70 (dlatego początkowo zaobserwowaliśmy 70 sukcesów w 100 próbach). Chcemy oszacowania punktowego i przedziału 95% prognozy dla liczby sukcesów jw następnych m = 20 próbach. Następnien=100 k=70 j m=20
Prawdopodobieństwa są
Rozwiązanie dla częstych
Praktyczny przykład z rozwiązaniem Frequentist
W przypadku przedziału przewidywania procedura jest nieco inna. Szukamy największego takiego, że P r ( X ≤U Pr(X≤k|k+U,n,n+m)=H(k;k+U,n,n+m)>α U [0,m]
To samo, co w przypadku podejścia bayesowskiego. Dolna granica przewidywania jest najmniejszą liczbą całkowitą taką, żeL Pr(X≥k|k+L,n,n+m)=1−H(k−1;k+L,n,n+m)>α
źródło