Łagodniejsze podejście do statystyki bayesowskiej

Niedawno zacząłem czytać „Wprowadzenie do statystyki bayesowskiej” 2. wydanie Bolstad. Miałem klasę statystyk wprowadzających, która obejmowała głównie testy statystyczne i prawie przechodzę klasę w analizie regresji. Jakich innych książek mogę użyć, aby uzupełnić moje zrozumienie tej?

Udało mi się przejść przez pierwsze 100-125 stron. Potem książka zaczyna mówić o testowaniu hipotez, co jestem bardzo podekscytowana, ale rzuca mi kilka rzeczy:

Zastosowanie funkcji gęstości prawdopodobieństwa w obliczeniach. Innymi słowy, jak oceniać takie równania.
To całe zdanie „Załóżmy, że korzystamy z beta (1,1) przed po zakażeniu Następnie podano y = 8, gęstość tylnej jest beta (9,3) posteriori prawdopodobieństwo hipotezy zerowej to ...”. I wierzyć beta (1,1) odnosi się do pliku PDF, w którym średnia to 1, a stdev to 1? Nie rozumiem, jak zmieniłoby się to w beta (9,3) jako funkcja gęstości tylnej.

Rozumiem pojęcie priory kontra postwale i rozumiem, jak stosować je przy użyciu stołu ręcznie. Rozumiem (myślę!), Że pi reprezentuje przypuszczalną proporcję populacji lub prawdopodobieństwo.

Nie rozumiem, jak połączyć to z danymi, na które trafiłbym na co dzień i uzyskać wyniki.

hypothesis-testing bayesian Justin Bozonier
źródło

Parametr

π

$\pi$ wydaje się z kontekstu być prawdopodobieństwem populacyjnym modelu dwumianowego. W tym przypadku rozkład beta jest sprzężony przed dwumianowym prawdopodobieństwem ze znanym

n

$n$ i nieznanym

π

$\pi$ . Jednak parametry rozkładu beta nie są średnią i odchyleniem standardowym, jak ma to miejsce w przypadku rozkładu normalnego. Spójrz na stronę Wikipedii, aby zobaczyć wzór średniej i wariancji zmiennej losowej beta pod względem parametrów rozkładu beta.

caburke

Dziękuję Ci! Koniugat przed jest innym terminem, który nie jest mi znany. Gdzie mogę dowiedzieć się więcej na ten temat na poziomie wprowadzającym?

Justin Bozonier

Być może interesuje Cię bardziej praktyczny tekst, czy widziałeś Bayesowskie metody dla hakerów? (Ujawnienie - jestem współautorem) Spróbuj wyszukać (jest otwarty i darmowy).

Cam.Davidson.Pilon

@JustinBozonier Ten link stats.stackexchange.com/questions/66018/... zawiera wyjaśnienie różnych terminów używanych przez ludzi do opisania priorytetów, w tym także priorytetów sprzężonych.

Sycorax mówi Przywróć Monikę

@ Cam.Davidson.Pilon Dzięki za to! Samo aktualizowanie przekonań na wykresach na tej stronie pomaga mi uzyskać więcej tego, co mówią inni: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

Justin Bozonier

Odpowiedzi:

Zastosowanie funkcji gęstości prawdopodobieństwa w obliczeniach. Innymi słowy, jak oceniać takie równania.

Myślę, że nadal myślisz o tym z częstej perspektywy: jeśli szukasz oszacowania punktowego, a posterior nie da ci go. Umieszczasz pliki PDF, wyciągasz pliki PDF. Możesz uzyskać oszacowania punktowe, obliczając statystyki z twojego rozkładu tylnego, ale przejdę do tego za chwilę.

Rozumiem pojęcie priory kontra postwale i rozumiem, jak stosować je przy użyciu stołu ręcznie. Rozumiem (myślę!), Że pi reprezentuje przypuszczalną proporcję populacji lub prawdopodobieństwo.

to to samo, co : oba są plikami PDF. jest zwyczajowo używany do oznaczenia, że dany plik PDF ma wcześniejszą gęstość. $\pi(x)$ $p(x)$ $\pi$

Podejrzewam, że nie dostaniesz przeorów i osób postronnych tak dobrze, jak ci się wydaje, więc cofnijmy się do fundamentalnej podstawy statystyki bayesowskiej: prawdopodobieństwa subiektywnego .

Eksperyment myślowy z prawdopodobieństwem subiektywnym

Powiedzmy, że prezentuję ci monetę i pytam, czy uważasz, że ta moneta jest uczciwa. Słyszałeś, że wiele osób mówi o nieuczciwych monetach w klasie prawdopodobieństwa, ale tak naprawdę nigdy nie widziałeś jednej w prawdziwym życiu, więc odpowiadasz: „Tak, jasne, myślę, że to uczciwa moneta”. Ale fakt, że zadaję ci to pytanie, trochę cię zniechęca, więc chociaż szacujesz, że to sprawiedliwe, nie byłbyś zaskoczony, gdyby tak nie było. O wiele mniej zaskoczony, niż gdybyś znalazł tę monetę w swojej kieszeni (ponieważ zakładasz, że to cała prawdziwa waluta, a teraz tak naprawdę mi nie ufasz, bo zachowuję się podejrzanie).

Teraz przeprowadzamy kilka eksperymentów. Po 100 rzutach moneta oddaje 53 głów. Jesteś o wiele bardziej pewny, że jest to uczciwa moneta, ale wciąż jesteś otwarty na możliwość, że tak nie jest. Różnica polega na tym, że teraz byłbyś bardzo zaskoczony, gdyby okazało się, że ta moneta ma jakieś nastawienie.

Jak możemy tutaj przedstawić twoje wcześniejsze i późniejsze przekonania, w szczególności w odniesieniu do prawdopodobieństwa, że moneta pokaże głowy (które oznaczymy )? W częstych przypadkach twoje wcześniejsze przekonanie - twoja zerowa hipoteza - wynosi . Po uruchomieniu eksperymentu nie możesz odrzucić wartości zerowej, więc kontynuujesz założenie, że tak, moneta jest prawdopodobnie sprawiedliwa. Ale w jaki sposób podsumowujemy zmianę w przekonaniu, że moneta jest uczciwa? Po eksperymencie możesz postawić zakład, że moneta jest uczciwa, ale przed eksperymentem byłbyś przerażony. $\theta$ $\theta = 0.5$

$\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ $\theta=0.5$

Jak wykonujemy obliczenia?

Zaczynamy od plików PDF, a kończymy na plikach PDF. Kiedy musisz zgłosić oszacowanie punktowe, możesz obliczyć statystyki, takie jak średnia, mediana lub tryb rozkładu tylnego (w zależności od funkcji utraty, do której nie będę się teraz zwracał. Pozostańmy przy średniej). Jeśli masz rozwiązanie w postaci zamkniętego formularza dla pliku PDF, określenie tych wartości prawdopodobnie będzie banalne. Jeśli tylny jest skomplikowany, możesz użyć procedur takich jak MCMC, aby pobrać próbki z tylnej i uzyskać statystyki z narysowanej próbki.

W przykładzie, w którym masz wcześniejszą wersję beta i prawdopodobieństwo dwumianowe, obliczenie tylnego zmniejsza się do bardzo czystego obliczenia. Dany:

$\theta \sim Beta(\alpha, \beta)$
$X|\theta \sim Binomial(\theta)$

Następnie tylny zmniejsza się do:

$\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Stanie się tak za każdym razem, gdy będziesz mieć wcześniejszą wersję beta i prawdopodobieństwo dwumianowe, a powód powinien być widoczny w obliczeniach dostarczonych przez DJE . Kiedy określony model prawdopodobieństwa wcześniejszego zawsze daje a posteriorę, która ma taki sam rodzaj rozkładu jak wcześniejszy, związek między rodzajami rozkładów zastosowanych dla wcześniejszego a prawdopodobieństwa nazywa się koniugatem . Istnieje wiele par rozkładów, które mają powiązania sprzężone, a Bayesianie bardzo często wykorzystują sprzężenie w celu uproszczenia obliczeń. Biorąc pod uwagę szczególne prawdopodobieństwo, możesz znacznie ułatwić sobie życie, wybierając wcześniej koniugat (jeśli taki istnieje i możesz uzasadnić swój wybór przeora).

Wierzę, że beta (1,1) odnosi się do pliku PDF, w którym średnia to 1, a stdev to 1?

We wspólnej parametryzacji rozkładu normalnego dwa parametry oznaczają średnią i odchylenie standardowe rozkładu. Ale tak właśnie parametryzujemy rozkład normalny. Inne rozkłady prawdopodobieństwa są parametryzowane bardzo różnie.

$Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t a (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Jak wyraźnie widać, średnia i wariancja nie są częścią parametryzacji tego rozkładu, ale mają rozwiązania w formie zamkniętej, które są prostymi funkcjami parametrów wejściowych.

$Beta(1,1)$ $Uniform(0,1)$

David Marks
źródło

Kluczową rzeczą, jaką dała mi odpowiedź, było uświadomienie sobie, że szukanie jednej wartości było miejscem, w którym się rozłączałem. Kiedy zacząłem myśleć o dystrybucji, tekst Kruschke i wszystko inne zaczęło mieć znacznie większy sens. Dziękuję Ci!

Justin Bozonier,

$p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

Wcześniejszy beta z dwumianowym prawdopodobieństwem (stała liczba prób z wynikami binarnymi i ustalonymi prawdopodobieństwami sukcesu / porażki) ma właściwość sprzężenia, która pozwala na napisanie w późniejszym czasie (iloczynu wcześniejszego i prawdopodobieństwa) w formie zamkniętej:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

For the particular example in the text, the author is indicating that a beta(1,1) prior with data n=10 and y=8 produces a beta(1+8,1+2)=beta(9,3) posterior distribution on $\theta$ .

This closed-form expression is convenient, but by no means necessary. Multiplying probability densities can be done the same way as multiplying other mathematical expressions; the difficulties arrive since many products of densities are not as easily rewritten as the beta prior/binomial likelihood. Fortunately, this is where computers pick up the slack.

Sycorax mówi Przywróć Monikę
źródło

Jeśli szukasz delikatniejszego podejścia, gorąco polecam książkę Kruschke która używa R do wyjaśnienia podstawowych pojęć. Jest to bardzo praktyczne i praktyczne podejście do nauki statystyki bayesowskiej, a na jego stronie można znaleźć wszystkie użyte kody.

Ktoś mi też polecił tekst Cam.Davidson.Pilon, nie oglądałem go jeszcze, ale można go znaleźć tutaj .

rok
źródło

Dzięki! Właściwie mam już książkę Kruschke i po prostu wróciłem do jej przeglądu i zdałem sobie sprawę, że właśnie tego potrzebuję. Dzięki za wskaźnik!

Justin Bozonier,

@JustinBozonier Gorąco polecam również wprowadzenie do teorii statystyki (nastrój) . Zapewnia stosunkowo wysoki poziom rygoru, ale zakłada jedynie, że znasz bardzo prosty rachunek różniczkowy.

Steve P.