Słabo informacyjne wcześniejsze rozkłady dla parametrów skali

21

Używam logarytmicznych rozkładów jako poprzednich rozkładów dla parametrów skali (dla rozkładów normalnych, rozkładów t itp.), Gdy mam ogólne pojęcie o tym, jaka powinna być skala, ale chcę się pomylić, mówiąc, że nie wiem dużo o tym. Używam tego, ponieważ to użycie ma dla mnie intuicyjny sens, ale nie widziałem, żeby inni go używali. Czy są z tym jakieś ukryte niebezpieczeństwa?

John Salvatier
źródło
1
Normalne mają sprzężone priory: en.wikipedia.org/wiki/Normal-gamma_distribution . Mogą być znacznie łatwiejsze w użyciu.
whuber
Ciekawy. Zajmuję się liczbami, czy jest dodatkowa korzyść z tych rozkładów oprócz zgodności?
John Salvatier
5
Nie do końca moja dziedzina, ale to „może” być istotne? Gelman A. Wcześniejsze rozkłady parametrów wariancji w modelach hierarchicznych. Analiza Bayesowska 2006; 1: 515–533. dx.doi.org/10.1214/06-BA117A
onestop
Znalazłem dystrybucję Scaled-Beta zaproponowaną przez Péreza i Pericchi. 2)
Sprzężone priory dla określonego rozkładu, takiego jak normalny, to tylko priory, które prowadzą do tego rozkładu jako rozkład późniejszy, biorąc pod uwagę zestaw danych. Jeśli użyjesz koniugatu przedtem, nie musisz wchodzić w bałagan związany z wykonaniem integracji w celu obliczenia tylnej. To sprawia, że ​​wszystko jest wygodne, ale w dzisiejszych czasach MCMC znacznie ułatwia korzystanie z szerokiej gamy możliwych priorów.
Michael R. Chernick

Odpowiedzi:

20

Poleciłbym użyć „rozkładu beta drugiego rodzaju” ( w skrócie Beta 2 ) dla lekko informacyjnego rozkładu i zastosować sprzężoną odwrotną dystrybucję gamma, jeśli masz silne wcześniejsze przekonania. Mówię, że to dlatego, że przeor sprzężony nie jest solidny w tym sensie, że jeśli przeor i konflikt danych są sprzeczne, przeor ma nieograniczony wpływ na rozkład a posteriori. Takie zachowanie nazwałbym „dogmatycznym” i nie jest uzasadnione łagodnymi wcześniejszymi informacjami.

Właściwością, która determinuje solidność, jest zachowanie ogona przeora i prawdopodobieństwa. Bardzo dobry artykuł opisujący szczegóły techniczne znajduje się tutaj . Na przykład, można wybrać prawdopodobieństwo (powiedzmy rozkład t), tak że jako obserwacja (tzn. Staje się dowolnie duża) jest odrzucana z analizy parametru lokalizacji (w podobny sposób, jak intuicyjnie zrobić z taką obserwacją). Szybkość „odrzucania” zależy od tego, jak ciężkie są ogony dystrybucji.yja

Niektóre slajdy przedstawiające aplikację w kontekście modelowania hierarchicznego można znaleźć tutaj (pokazuje matematyczną postać dystrybucji Beta 2 ), tutaj jest artykuł .

Jeśli nie jesteś w kontekście modelowania hierarchicznego, sugerowałbym porównanie a posteriora (lub cokolwiek, co tworzysz), ale wcześniej użyj Jeffreysa dla parametru skali, który podaje . Można to utworzyć jako limit gęstości Beta 2, ponieważ oba jego parametry są zbieżne do zera. Dla przybliżenia można użyć małych wartości. Ale spróbuję wypracować analityczne rozwiązanie, jeśli to w ogóle możliwe (a jeśli nie jest to kompletne rozwiązanie analityczne, uzyskaj rozwiązanie analityczne tak daleko posunięte, jak to możliwe), ponieważ nie tylko zaoszczędzisz sobie trochę czasu obliczeniowego, ale jesteś prawdopodobnie lepiej zrozumiesz, co dzieje się w twoim modelu.p(σ)1σ

Kolejną alternatywą jest podanie wcześniejszych informacji w formie ograniczeń (średnia równa , wariancja równa , IQR równa itp. Z podanymi przez Ciebie wartościami ), a następnie użyj maksymalny rozkład entropii (wyszukaj dowolne dzieło Edwina Jaynesa lub Larry'ego Bretthorsta, aby uzyskać dobre wyjaśnienie, czym jest Maksymalna Entropia, a czym nie jest) w odniesieniu do „niezmiennej miary” Jeffreysa . V I Q R M , V , I Q R m ( σ ) = 1M.V.jaQRM.,V.,jaQRm(σ)=1σ

MaxEnt jest wersją „Rolls Royce”, podczas gdy Beta 2 jest bardziej wersją „sedan”. Powodem tego jest to, że dystrybucja MaxEnt „zakłada najmniej” z zastrzeżeniem ograniczeń, które na nią włożyłeś (np. Brak ograniczeń oznacza, że ​​wcześniej otrzymałeś Jeffreysa), podczas gdy dystrybucja Beta 2 może zawierać pewne „ukryte” funkcje, które może, ale nie musi być pożądane w twoim konkretnym przypadku (np. jeśli wcześniejsze informacje są bardziej wiarygodne niż dane, to Beta 2 jest zła).

Inną miłą właściwością dystrybucji MaxEnt jest to, że jeśli w mechanizmie generującym dane nie działają żadne nieokreślone ograniczenia, to rozkład MaxEnt jest zdecydowanie najbardziej prawdopodobnym rozkładem, jaki zobaczysz (mówimy o szansach ponad miliardów i trylionów do jednego). Dlatego jeśli rozkład, który widzisz, nie jest rozkładem MaxEnt, prawdopodobnie istnieją dodatkowe ograniczenia, których nie określiłeś, działając na prawdziwym procesie, a zaobserwowane wartości mogą dostarczyć wskazówek co do tego, jakie to ograniczenie może być.

prawdopodobieństwo prawdopodobieństwa
źródło
@probabilityislogic Ładna odpowiedź. Czy wiesz, gdzie mogę znaleźć dokumenty wymienione w akapicie trzecim? Linki nie działają.
1
jeden, który działa na papierze jest tutaj . Było to na stronie internetowej konferencji „obiektywne bayes 09” (spotkania w Walencji). Nie sądzę, że slajdy będą już dostępne, ponieważ strona konferencji została usunięta ...: szkoda, to był dobry zestaw slajdów. Ten horshoe przed wygląda interesująco w linku, który podałeś.
probabilityislogic
@probabilityislogic Być może coś mi brakuje, ale nie mogę znaleźć odniesienia do w pracy licencjackiej. bmitza2)
@Procrastinator Czy mam rację zakładając, że chcesz tylko odpowiednich priorów? Nie powiedziałeś tego, ale jeśli dopuścisz niewłaściwe priory, wspomniane już priory Jeffreysa zadziałałyby i mógłbym zacytować teorię prawdopodobieństwa Jeffreysa, książki Dennisa Lindleya lub encyklopedię statystyczną. Sposób, w jaki można sprawdzić za pomocą Google, aby znaleźć odpowiedź, a jeśli nie można jej znaleźć, prawdopodobnie w literaturze nie ma nic poza tymi, które podałeś.
Michael R. Chernick
@MichaelChernick Tak, masz rację, interesują mnie tylko właściwe priory. Powodem tego jest to, że dla właściwych priorów (1) istnienie tylnej nie ogranicza się do niektórych modeli i (2) chciałem sprawdzić, czy nie brakuje mi innej interesującej propozycji. Zgadzam się z tobą, że wydaje się, że priory Gelmana, Pericchi i Gammy są najbardziej popularne w literaturze, ale zauważyłem również, że istnieje tendencja do proponowania grubych ogonów w celu uzyskania „solidnych” wniosków.
13

Poniższy artykuł autorstwa Danielsa porównuje różne priory skurczu dla wariancji. Są to właściwe priorytety, ale nie jestem pewien, ilu można nazwać nieinformacyjnymi, jeśli w ogóle. Ale zapewnia także listę nieinformacyjnych priorów (nie wszystkie właściwe). Poniżej znajduje się odniesienie.

MJ Daniels (1999), a priori dla wariancji modeli hierarchicznych , Canadian J. Stat. , vol. 27, nr 3, ss. 567–578.

Priors

  1. Płaski : (stały)K.
  2. Skala lokalizacji :τ-2)
  3. Haar niezmiennik prawy :τ-1
  4. 1/(σ2)+τ2))
  5. σ/(2)(σ2)+τ2))3)/2))
  6. σ2)/(σ2)+τ2))
  7. σ/(2)τ(σ+τ)2))

Kolejny nowszy artykuł w podobnej żyle jest następujący.

A. Gelman (2006), Wcześniejsze rozkłady parametrów wariancji w modelach hierarchicznych , Analiza Bayesa , vol. 1, nr 3, ss. 515–533.

Michael R. Chernick
źródło
2
(+1) To dobre znalezisko. Dodałem stabilny link do artykułu Daniela, a także inne odniesienie, które wydaje się go uzupełniać.
kardynał
4

(Pytanie jest nieaktualne, ale problem nie jest)

Osobiście uważam, że twoja intuicja ma jakiś sens. Innymi słowy, jeśli nie potrzebujesz matematycznej porządkowości koniugacji, to niezależnie od rozkładu, którego użyłbyś dla parametru lokalizacji, powinieneś użyć tego samego dla dziennika parametru skali. Mówisz więc: użyj odpowiednika zwykłego przeora.

Czy rzeczywiście użyłbyś normalnego wcześniejszego parametru parametru? Większość ludzi powiedziałaby, że o ile nie sprawisz, że wariancja będzie ogromna, jest to prawdopodobnie nieco „zbyt dogmatyczne”, z powodów wyjaśnionych w innych odpowiedziach tutaj (wpływ nieograniczony). Wyjątkiem jest sytuacja, gdy wykonujesz empiryczne bayes; to znaczy, używając danych do oszacowania parametrów swojego przeora.

Jeśli chcesz być „słabo informacyjny”, prawdopodobnie wybrałbyś dystrybucję z grubszymi ogonami; oczywistymi kandydatami są t rozkłady. Wydaje się, że najnowszą radą Gelmana jest stosowanie df przy 3-7. (Zauważ, że link obsługuje również moją sugestię, że chcesz zrobić to samo dla dziennika skali, co zrobiłbyś dla lokalizacji) Więc zamiast lognormal, możesz użyć log-student-t. Aby to osiągnąć, możesz zrobić coś takiego:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Myślę jednak, że jeśli powyższy kod jest dla Ciebie zbyt skomplikowany, prawdopodobnie mógłbyś uniknąć logarytmicznego przeora z dwoma zastrzeżeniami. Po pierwsze, spraw, aby wariancja tego przeora była kilka razy szersza niż zgrubne przypuszczenie, jak „jesteś niepewny”; chcesz wcześniej słabo informacyjnego, a nie silnie informacyjnego. Po drugie, po dopasowaniu modelu sprawdź tylną medianę parametru i upewnij się, że jego log nie znajduje się zbyt daleko od środka logarytmu normalnego. „Nie za daleko” prawdopodobnie oznacza: mniej niż dwa odchylenia standardowe, a najlepiej niewiele więcej niż jedno SD.

Jameson Quinn
źródło
2

W przypadku hierarchicznych parametrów skali modelu najczęściej skończyłem na sugestii Andrew Gelmana o zastosowaniu złożonego, niecentralnego rozkładu T. To działało dla mnie całkiem przyzwoicie.

John Salvatier
źródło