Co to jest „nieinformacyjny przeor”? Czy możemy kiedykolwiek mieć taki bez żadnych informacji?

73

Inspirowany komentarzem do tego pytania :

Co uważamy za „nieinformacyjne” z góry - i jakie informacje są nadal zawarte w rzekomo pozbawionym informacji przeorze?

Zasadniczo widzę przeora w analizie, w której jest to analiza typu częstokrzyskiego, która próbuje pożyczyć kilka fajnych części z analizy bayesowskiej (czy może to być łatwiejsza interpretacja aż do „tego, co jest najgorętsze do zrobienia”), określony uprzedni to równomierne rozłożenie całej granicach środka efekt, skupionych na 0. Ale nawet, że twierdzi się kształt do poprzedniego - to właśnie dzieje się płaski.

Czy przed użyciem jest lepsza informacja?

Fomite
źródło
2
Może spodoba ci się tak zwana Zasada Maksymalnej Entropii . Nie mam ochoty rozszerzać tego w pełnej odpowiedzi - artykuł w Wikipedii wydaje się dobrej jakości. Jestem przekonany, że niektórzy autorzy rozwiną się w nim o wiele lepiej niż ja.
Elvis

Odpowiedzi:

93

[Ostrzeżenie: jako członek karty Obiektywnej Sekcji Bayesa ISBA , moje poglądy nie są reprezentatywne dla wszystkich statystów bayesowskich !, wręcz przeciwnie ...]

Podsumowując, nie ma czegoś takiego jak przeor z „naprawdę bez informacji”.

Rzeczywiście, „nieinformacyjny” przeor jest niestety mylący. Każda wcześniejsza dystrybucja zawiera pewne specyfikacje podobne do pewnej ilości informacji. Nawet (a zwłaszcza) mundur przed. Rzeczywiście, jednolity przeor jest płaski tylko dla jednej parametryzacji problemu. Jeśli jedna zmienia się na inną parametryzację (nawet ograniczoną), jakobiańska zmiana zmiennej pojawia się w obrazie i gęstości, a wcześniejsze nie jest już płaskie.

Jak zauważył Elvis, maksymalna entropia jest jednym podejściem zalecanym do wyboru tak zwanych „nieinformacyjnych” priorów. Wymaga to jednak (a) wystarczających informacji o niektórych momentach wcześniejszej dystrybucji aby określić ograniczenia które prowadzą do MaxEnt przed i (b) wstępny wybór miary odniesienia [w ustawieniach ciągłych], wybór, który przywraca debatę do jej początkowego etapu! (Ponadto parametryzacja wiązań (tj. Wybórh(θ)π()

Θh(θ)dπ(θ)=h0
π(θ)exp{λTh(θ)}
dμ(θ)h) wpływa na kształt wynikowego MaxEnt wcześniej.)

José Bernardo opracował oryginalną teorię referencji, w której wybiera przeora, aby zmaksymalizować informacje dostarczone przez dane, maksymalizując odległość Kullbacka między wcześniejszym a późniejszym. W najprostszych przypadkach bez uciążliwych parametrów rozwiązaniem jest wcześniej Jeffreys. W przypadku bardziej skomplikowanych problemów (a) należy dokonać wyboru parametrów zainteresowania (lub nawet rankingu ich kolejności); (b) obliczenie wcześniejszego jest dość zaangażowane i wymaga sekwencji osadzonych zestawów kompaktowych, aby uniknąć problemów z niewłaściwością. (Szczegółowe informacje można znaleźć np. W The Bayesian Choice .)

Co ciekawe, niektórzy badacze spoza perspektywy bayesowskiej opracowali procedury zwane rozkładami ufności, które są rozkładami prawdopodobieństwa w przestrzeni parametrów, skonstruowanymi przez odwrócenie procedur opartych na częstotliwości bez wyraźnej wcześniejszej struktury lub nawet dominującej miary w tej przestrzeni parametrów. Twierdzą, że ten brak dobrze zdefiniowanego wcześniejszego jest plusem, chociaż wynik zdecydowanie zależy od wyboru procedury inicjalizacji opartej na częstotliwości

Krótko mówiąc, nie ma „najlepszego” (ani nawet „lepszego”) wyboru dla „wcześniejszego” „nieinformacyjnego” przeora. I uważam, że tak właśnie powinno być, ponieważ sama natura analizy bayesowskiej implikuje, że wybór wcześniejszego podziału ma znaczenie. I że nie ma porównania priorytetów: jeden nie może być „lepszy” od drugiego. (Przynajmniej przed obserwacją danych: po ich zaobserwowaniu porównanie priorów staje się wyborem modelu.) Wniosek José Bernardo, Jima Bergera, Dongchu Sun i wielu innych „obiektywnych” Bayesianów jest taki, że istnieją mniej więcej równorzędne referencje priory używaj, gdy nie masz pewności co do wcześniejszych informacji lub poszukujesz wzorcowego wnioskowania bayesowskiego, a niektóre z tych priorytetów są częściowo poparte argumentami teorii informacji,

Xi'an
źródło
14
(+1) Twoja książka? Oh cholera. I tak ma 387 pytań dla ciebie :)
Elvisa
4
(+1) Dla celu (nie mniej!), Prosta odpowiedź.
kardynał
2
+1 Dziękujemy za dobry i dobrze poinformowany przegląd problemów.
whuber
2
Znakomita odpowiedź. Dziękuję Ci. I jeszcze jedna książka na liście życzeń.
Fomite,
1
To prawie niesprawiedliwe. W końcu to Christian Robert! Żartuję. Świetna odpowiedź. I chciałbym, aby @ Xi'an mógł rozwinąć go w poście na swoim blogu, szczególnie o tym, jak parametryzacja jest ważna w temacie „nieinformacyjnych” priorów.
Manoel Galdino
16

Atrakcyjną właściwością formalnych nieinformacyjnych priorów jest „właściwość dopasowywania częstych”: oznacza to, że późniejszy przedział ufności 95% jest również (przynajmniej w przybliżeniu) przedziałem ufności 95% w sensie częstości. Ta właściwość odnosi się do wcześniejszego odniesienia Bernarda, chociaż fundusze tych nieinformacyjnych priorów nie są zorientowane na osiągnięcie dobrej własności pasjonującej częstokroć, jeśli użyjesz „naiwnego” („płaskiego”) nieinformacyjnego przeora, takiego jak jednolity rozkład lub gaussowski dystrybucja z ogromną wariancją, nie ma gwarancji, że właściwość pasująca do częstych będzie istniała. Być może referencyjny przeor Bernarda nie mógł być uważany za „najlepszy” wybór nieinformacyjnego przeora, ale może być uważany za najbardziej udany.

Stéphane Laurent
źródło
9

Rozkłady Jeffreysa również cierpią z powodu niespójności: priorytety Jeffreysa dla zmiennej over lub over są niewłaściwe, co nie ma miejsca w przypadku Jeffreysa przed parametrem prawdopodobieństwa : miara ma masę ponad .(,)(0,)pdp/p(1p)π(0,1)

Renyi wykazał, że rozkład nieinformacyjny musi być powiązany z niewłaściwą całką. Zobacz zamiast tego dystrybucje Lhoste, które unikają tej trudności i są niezmienne przy zmianach zmiennych (np. Dla miarą jest ).pdp/p(1p)


Po pierwsze, tłumaczenie jest dobre!

W przypadku E. LHOSTE: „Obliczanie prawdopodobieństwa zastosowania w artylerii”, Revue d'artillerie, tom 91, maj 1923

Dla A. RENYI: „O nowej aksjomatycznej teorii prawdopodobieństwa” Acta Mathematica, Académie des Sciences hongroises, tom VI, fasc.3-4, 1955

Mogę dodać: M. DUMAS: „Lois de probabilité a priori de Lhoste”, Sciences et technik de l'armement, 56, 4ème fascicule, 1982, s. 687-715

Heymann
źródło
3
Czy można ponownie napisać to po angielsku, nawet jeśli jest to zrobione dość źle za pośrednictwem usługi automatycznego tłumaczenia, takiej jak Tłumacz Google? Inni użytkownicy, płynniej posługujący się zarówno francuskim, jak i angielskim, mogą pomóc w jego edycji i edycji.
Silverfish,
3
O ile pamiętam, wynik niezmienności Lhoste jest ograniczony do przekształceń i dla parametrów na i . Inne przekształcenia z i na spowodują różne priorytety. logσlogp/(1p)(0,)(0,1)(0,)(0,1)R
Xi'an,
2
Z mojej krótkiej korespondencji z Maurycym Dumasem na początku lat 90. pamiętam, że napisał Note aux Comptes-Rendus de l'Académie des Sciences, w którym używa przekształceń i celu uzyskania „ niezmienne „priory. log()logit()
Xi'an,
3

Zgadzam się z doskonałą odpowiedzią Xi'ana , wskazując, że nie ma żadnego przeora, który byłby „nieinformacyjny” w sensie niesienia żadnej informacji. Aby rozwinąć ten temat, chciałem zwrócić uwagę, że jedną alternatywą jest przeprowadzenie analizy bayesowskiej w nieprecyzyjnych ramach prawdopodobieństwa (patrz zwłaszcza Walley 1991 , Walley 2000 ). W tych ramach wcześniejsze przekonanie jest reprezentowane przez zestaw rozkładów prawdopodobieństwa, a to prowadzi do odpowiedniego zestawu rozkładów bocznych. Może się to wydawać mało pomocne, ale w rzeczywistości jest całkiem niesamowite. Nawet przy bardzo szerokim zestawie wcześniejszych rozkładów (gdzie pewne momenty mogą obejmować wszystkie możliwe wartości), często nadal uzyskuje się konwergencję z tyłu do pojedynczej tylnej jako .n

Ta analityczna struktura została aksjatyzowana przez Walleya jako własną specjalną formę analizy probabilistycznej, ale zasadniczo jest równoważna z solidną analizą bayesowską z wykorzystaniem zestawu priorów, dając odpowiedni zestaw elementów bocznych. W wielu modelach możliwe jest ustawienie „nieinformacyjnego” zestawu priorytetów, który pozwala niektórym momentom (np. Wcześniejszej średniej) zmieniać się w całym możliwym zakresie wartości, a mimo to daje cenne wyniki późniejsze, w których momenty tylne są ograniczone ściślej. Ta forma analizy ma zapewne lepszą pretensję do bycia nazywaną „nieinformacyjną”, przynajmniej w odniesieniu do momentów, które mogą zmieniać się w całym dopuszczalnym zakresie.


Prosty przykład - model Bernoulliego: Załóżmy, że obserwujemy dane gdzie to nieznany interesujący parametr. Zwykle używamy gęstości beta jako przeora (zarówno przeor Jeffreya, jak i przeorat referencyjny mają tę formę). Możemy określić tę formę wcześniejszej gęstości w kategoriach wcześniejszej średniej i innego parametru jako:X1,...,Xn|θIID Bern(θ)θμκ>1

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

(Ta forma podaje wcześniejsze momenty i .) Teraz, w nieprecyzyjnym modelu moglibyśmy ustaw przed składać się z zestawu wszystkich wcześniejszych rozkładów dla wszystkich możliwych oczekiwanych wartości , ale z drugim parametrem ustalonym, aby kontrolować dokładność w zakresie średnich wartości. Na przykład możemy użyć zestawu priorytetów:E(θ)=μV(θ)=μ(1μ)/κ

P0{Beta(μ,κ)|0μ1}.

Załóżmy, że obserwujemy dodatnie wskaźniki w danych. Następnie, stosując regułę aktualizacji dla modelu Bernoulli-beta, odpowiedni zestaw tylny to:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

Zakres możliwych wartości dla tylnego oczekiwania wynosi:

sn+κ1E(θ|x)s+κ1n+κ1.

Ważne jest tutaj to, że chociaż rozpoczęliśmy od modelu, który był „nieinformacyjny” w odniesieniu do oczekiwanej wartości parametru (wcześniejsze przewidywania obejmowały wszystkie możliwe wartości), to jednak kończymy na późniejszych wnioskach, które są pouczające w odniesieniu do do późniejszych oczekiwań parametru (teraz mieszczą się w węższym zestawie wartości). Ponieważ ten zakres wartości jest ściśnięty do jednego punktu, który jest prawdziwą wartością .nθ

Ben
źródło
+1. Ciekawy. Co to jest kappa w ostatnim równaniu? Czy powinna to być gwiazda kappa?
ameba
Edytowałem, aby usunąć odmianę w aby uzyskać prostszy model. Teraz powinno być dobrze. κ
Ben