Jaki jest związek między Jeffreys Priors a transformacją stabilizującą wariancję?

Czytałem o przeorze Jeffreysa na wikipedii: Jeffreys Prior i zobaczyłem, że po każdym przykładzie opisuje, jak transformacja stabilizująca wariancję zamienia Jeffreysa przed mundurem.

Jako przykład w przypadku Bernoulliego stwierdza się, że dla monety, która jest główką z prawdopodobieństwem $\gamma \in [0,1]$ , model próbny Bernoulliego daje, że Jeffreys przed parametrem $\gamma$ wynosi:

p (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}}

$p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}}$

Następnie stwierdza, że jest to rozkład beta o $\alpha = \beta = \frac{1}{2}$ . Stwierdza również, że jeśli $\gamma = \sin^2(\theta)$ , to przed Jeffreys przed $\theta$ jest jednolity w przedziale $\left[0, \frac{\pi}{2}\right]$ .

Uznaję transformację za transformację stabilizującą wariancję. Co mnie dezorientuje to:

Dlaczego transformacja stabilizująca wariancję miałaby jednolity przeor?
Dlaczego mielibyśmy chcieć munduru przedtem? (ponieważ wydaje się, że może być bardziej podatne na niewłaściwe zachowanie)

Ogólnie nie jestem do końca pewien, dlaczego podano transformację sinusoidalną i jaką rolę odgrywa. Czy ktoś miałby jakieś pomysły?

bayesian prior jeffreys-prior użytkownik1398057
źródło

Zadaję sobie pytanie jako samouk szarlatana, zadając to pytanie, ale: do jakiej transformacji stabilizującej warianty masz na myśli?

\frac{1}{\sqrt{\sin^{2} (θ) (1 - \sin^{2} (θ))}}

$\frac{1}{\sqrt{\sin^2(\theta) \left( 1 - \sin^2(\theta) \right)}}$

shadowtalker

Kwadratowy sinus jest zwykle niewłaściwym sposobem myślenia o transformacji.

jest pierwiastkiem kwadratowym lub transformacją kątową.

θ = arcsin \sqrt[]{γ}

$\theta = \text{arcsin} \root \of \gamma$

Nick Cox,

Odpowiedzi:

Przeor Jeffreys jest niezmienny w ramach reparametryzacji. Z tego powodu wielu Bayesian uważa to za „nieinformacyjny przeor”. (Hartigan pokazał, że istnieje cała przestrzeń takich pierwszeństw dla gdzie jest wcześniejszym Jeffreys i $J^\alpha H^\beta$ $\alpha + \beta=1$ $J$ $H$ jest asymptotycznie lokalnie niezmiennym przeorem Hartigana. - Niezmienne uprzednie rozkłady )

Często powtarzanym fałszem jest to, że jednolity przełożony nie ma charakteru informacyjnego, ale po arbitralnej transformacji parametrów, a jednolity przełożony na nowe parametry oznacza coś zupełnie innego. Jeśli dowolna zmiana parametryzacji wpływa na twój przeor, wtedy twój przeor jest wyraźnie informacyjny.

Korzystanie z Jeffreysa jest z definicji równoważne użyciu płaskiego przed zastosowaniem transformacji stabilizującej wariancję.
Z matematycznego punktu widzenia wcześniejsze użycie Jeffreysa i płaskie wcześniejsze zastosowanie transformacji stabilizującej wariancję są równoważne. Z ludzkiego punktu widzenia ta ostatnia jest prawdopodobnie ładniejsza, ponieważ przestrzeń parametrów staje się „jednorodna” w tym sensie, że różnice są takie same we wszystkich kierunkach, bez względu na to, gdzie jesteś w przestrzeni parametrów.

Rozważ swój przykład Bernoulliego. Czy nie jest trochę dziwne, że ocena 99% na teście to ta sama odległość do 90%, a 59% do 50%? Po transformacji stabilizującej wariancje poprzednie pary są bardziej rozdzielone, tak jak powinny. Odpowiada naszej intuicji na temat rzeczywistych odległości w przestrzeni. (Matematycznie transformacja stabilizująca wariancję powoduje, że krzywizna utraty logarytmu jest równa macierzy tożsamości).

Neil G.
źródło

1. Zgadzam się, że jednolity uprzedni nie oznacza uprzedniego „nieinformacyjny”, ale mój komentarz na temat nieprzedstawiania określonej wartości nad inną wartością nadal obowiązuje (w ramach tej konkretnej parametryzacji). 2. Dobroć przeora jest bardzo niepokojąca . Jeśli masz niewłaściwych danych przed i mają, to nie gwarantuje, że będzie mieć odpowiednią tylnej. To bardzo niepokojące.

Greenparker,

1. Ale o to chodzi: parametryzacja jest dowolna, więc nie ma sensu mówić, że nie cenisz jednej wartości nad drugą. 2. W praktyce nigdy nie uważałem, że to dotyczy. To może dotyczyć innych ludzi.

Neil G,

1. Sprawiedliwy punkt. 2. Nie jestem pewien, z jakimi problemami się borykasz, ale nawet proste prawdopodobieństwo Gaussa z przeorem Jeffreysa może mieć niewłaściwy tył. Zobacz moją odpowiedź tutaj .

Greenparker,

@Greenparker Masz rację. Wyjaśnię, dlaczego nie dotyczy mnie to w mojej odpowiedzi.

Neil G,

Nie sądzę, aby edycja była poprawna. Jeśli tył jest niewłaściwy, MCMC z pewnością jest nonsensowna, ponieważ próbujesz czerpać z nieokreślonego rozkładu. Wyobraź sobie próbę próbkowania z Uniform

przy użyciu dowolnego schematu próbkowania. Chociaż algorytm MCMC może nadal być ergodyczny (gdy masz zerową rekurencję), ale twoje próbki będą bezużyteczne.

(0, \infty)

$(0,\infty)$

Greenparker,

Podana strona Wikipedii tak naprawdę nie używa terminu „transformacja stabilizująca wariancję”. Termin „transformacja stabilizująca wariancję” jest ogólnie używany do wskazania transformacji, które sprawiają, że wariancja zmiennej losowej jest stała. Chociaż w przypadku Bernoulliego dzieje się tak z transformacją, nie jest to dokładnie ten cel. Celem jest uzyskanie jednolitego rozkładu, a nie tylko wariantu stabilizującego wariancję.

Przypomnij sobie, że jednym z głównych celów używania Jeffreysa przedtem jest niezmienność w trakcie transformacji. Oznacza to, że jeśli ponownie sparametryzujesz zmienną, pierwszeństwo się nie zmieni.

W Jeffreys wcześniejsze w tym przypadku Bernoulliego, jak podkreślił, jest beta . $(1/2, 1/2)$

p_{γ} (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}} .

$p_{\gamma}(\gamma) \propto \dfrac{1}{\sqrt{\gamma(1-\gamma)}}.$

Ponownie porównując z , możemy znaleźć rozkład . Najpierw zobaczmy, że $\gamma = \sin^2(\theta)$ $\theta$ , a ponieważ,. Przypomnij sobie, że. $\theta = \arcsin(\sqrt{\gamma})$ $0 < \gamma < 1$ $0 < \theta < \pi/2$ $\sin^2(x) + \cos^2(x) = 1$

\begin{aligned} F_{θ} (x) & = P (θ < x) \\ = P (\sin^{2} (θ) < \sin^{2} (x)) \\ = P (γ < \sin^{2} (x)) \\ = F_{γ} (\sin^{2} (x)) \\ f_{θ} (x) & = \frac{d F_{γ} (\sin^{2} (x)}{d x} \\ = 2 \sin (x) \cos (x) p_{γ} (\sin^{2} (x)) \\ \propto \sin (x) \cos (x) \frac{1}{\sqrt{\sin^{2} (x) (1 - \sin^{2} (x))}} \\ = 1. \end{aligned}

$\begin{align*} F_{\theta}(x) & = P(\theta < x)\\ & = P(\sin^2(\theta) < \sin^2(x))\\ & = P(\gamma < \sin^2(x))\\ & = F_{\gamma}(\sin^2(x))\\ f_{\theta}(x) & = \dfrac{d F_{\gamma}(\sin^2(x)}{d x}\\ & = 2\sin(x)\cos(x)\,p_{\gamma}(\sin^2(x))\\ & \propto \sin(x)\cos(x) \dfrac{1}{\sqrt{\sin^2(x)(1 - \sin^2(x))}}\\ & =1. \end{align*}$

Thus $\theta$ is the uniform distribution on $(0, \pi/2)$ . This is why the $\sin^2(\theta)$ transformation is used, so that the re-parametrization leads to a uniform distribution. The uniform distribution is now the Jeffreys prior on $\theta$ (since Jeffreys prior is invariant under transformation). This answers your first question.

Often in Bayesian analysis one wants a uniform prior when there is not enough information or prior knowledge about the distribution of the parameter. Such a prior is also called a "diffuse prior" or "default prior". The idea is to not commit to any value in the parameter space more than other values. In such a case the posterior is then completely dependent on the data likelihood. Since,

q (θ | x) \propto f (x | θ) f (θ) \propto f (x | θ) .

$q(\theta|x) \propto f(x|\theta) f(\theta) \propto f(x|\theta).$

If the transformation is such that the transformed space is bounded, (like $(0, \pi/2)$ in this example), then the uniform distribution will be proper. If the transformed space is unbounded, then the uniform prior will be improper, but often the resulting posterior will be proper. Although, one should always verify that this is the case.

Greenparker
źródło

This idea that you are "not committing to any value" by using a diffuse prior is wrong. The proof is that you can take any transformation of the space and the diffuse prior will mean something completely different.

Neil G

My comment on "not committing to any value" refers only to that particular parameterization. Of course, transformations will change how the mass is distributed (just like in this Bernoulli example).

Greenparker

Like I said below your other comment, the parametrization is arbitrary, which is why the statement "not committing to any value" is meaningless.

Neil G