Czytałem o przeorze Jeffreysa na wikipedii: Jeffreys Prior i zobaczyłem, że po każdym przykładzie opisuje, jak transformacja stabilizująca wariancję zamienia Jeffreysa przed mundurem.
Jako przykład w przypadku Bernoulliego stwierdza się, że dla monety, która jest główką z prawdopodobieństwem , model próbny Bernoulliego daje, że Jeffreys przed parametrem wynosi:
Następnie stwierdza, że jest to rozkład beta o . Stwierdza również, że jeśli, to przed Jeffreys przedjest jednolity w przedziale.
Uznaję transformację za transformację stabilizującą wariancję. Co mnie dezorientuje to:
Dlaczego transformacja stabilizująca wariancję miałaby jednolity przeor?
Dlaczego mielibyśmy chcieć munduru przedtem? (ponieważ wydaje się, że może być bardziej podatne na niewłaściwe zachowanie)
Ogólnie nie jestem do końca pewien, dlaczego podano transformację sinusoidalną i jaką rolę odgrywa. Czy ktoś miałby jakieś pomysły?
źródło
Odpowiedzi:
Przeor Jeffreys jest niezmienny w ramach reparametryzacji. Z tego powodu wielu Bayesian uważa to za „nieinformacyjny przeor”. (Hartigan pokazał, że istnieje cała przestrzeń takich pierwszeństw dla α + β = 1, gdzie J jest wcześniejszym Jeffreys i HJαHβ α+β=1 J H jest asymptotycznie lokalnie niezmiennym przeorem Hartigana. - Niezmienne uprzednie rozkłady )
Często powtarzanym fałszem jest to, że jednolity przełożony nie ma charakteru informacyjnego, ale po arbitralnej transformacji parametrów, a jednolity przełożony na nowe parametry oznacza coś zupełnie innego. Jeśli dowolna zmiana parametryzacji wpływa na twój przeor, wtedy twój przeor jest wyraźnie informacyjny.
Korzystanie z Jeffreysa jest z definicji równoważne użyciu płaskiego przed zastosowaniem transformacji stabilizującej wariancję.
Z matematycznego punktu widzenia wcześniejsze użycie Jeffreysa i płaskie wcześniejsze zastosowanie transformacji stabilizującej wariancję są równoważne. Z ludzkiego punktu widzenia ta ostatnia jest prawdopodobnie ładniejsza, ponieważ przestrzeń parametrów staje się „jednorodna” w tym sensie, że różnice są takie same we wszystkich kierunkach, bez względu na to, gdzie jesteś w przestrzeni parametrów.
Rozważ swój przykład Bernoulliego. Czy nie jest trochę dziwne, że ocena 99% na teście to ta sama odległość do 90%, a 59% do 50%? Po transformacji stabilizującej wariancje poprzednie pary są bardziej rozdzielone, tak jak powinny. Odpowiada naszej intuicji na temat rzeczywistych odległości w przestrzeni. (Matematycznie transformacja stabilizująca wariancję powoduje, że krzywizna utraty logarytmu jest równa macierzy tożsamości).
źródło
Podana strona Wikipedii tak naprawdę nie używa terminu „transformacja stabilizująca wariancję”. Termin „transformacja stabilizująca wariancję” jest ogólnie używany do wskazania transformacji, które sprawiają, że wariancja zmiennej losowej jest stała. Chociaż w przypadku Bernoulliego dzieje się tak z transformacją, nie jest to dokładnie ten cel. Celem jest uzyskanie jednolitego rozkładu, a nie tylko wariantu stabilizującego wariancję.
Przypomnij sobie, że jednym z głównych celów używania Jeffreysa przedtem jest niezmienność w trakcie transformacji. Oznacza to, że jeśli ponownie sparametryzujesz zmienną, pierwszeństwo się nie zmieni.
1.
W Jeffreys wcześniejsze w tym przypadku Bernoulliego, jak podkreślił, jest beta . p γ ( γ ) ∝ 1( 1 / 2 , 1 / 2 )
Ponownie porównując z , możemy znaleźć rozkład θ . Najpierw zobaczmy, że θ = arcsin ( √γ= grzech2)( θ ) θ , a ponieważ0<γ<1,0<θ<π/2. Przypomnij sobie, żesin2(x)+cos2(x)=1.
F θ ( x )θ = arcsin( γ--√) 0 < γ< 1 0 < θ < π/ 2 grzech2)( x ) + cos2)( x ) = 1
Thusθ is the uniform distribution on (0,π/2) . This is why the sin2(θ) transformation is used, so that the re-parametrization leads to a uniform distribution. The uniform distribution is now the Jeffreys prior on θ (since Jeffreys prior is invariant under transformation). This answers your first question.
2.
Often in Bayesian analysis one wants a uniform prior when there is not enough information or prior knowledge about the distribution of the parameter. Such a prior is also called a "diffuse prior" or "default prior". The idea is to not commit to any value in the parameter space more than other values. In such a case the posterior is then completely dependent on the data likelihood. Since,
If the transformation is such that the transformed space is bounded, (like(0,π/2) in this example), then the uniform distribution will be proper. If the transformed space is unbounded, then the uniform prior will be improper, but often the resulting posterior will be proper. Although, one should always verify that this is the case.
źródło