Używam logarytmicznych rozkładów jako poprzednich rozkładów dla parametrów skali (dla rozkładów normalnych, rozkładów t itp.), Gdy mam ogólne pojęcie o tym, jaka powinna być skala, ale chcę się pomylić, mówiąc, że nie wiem dużo o tym. Używam tego, ponieważ to użycie ma dla mnie intuicyjny sens, ale nie widziałem, żeby inni go używali. Czy są z tym jakieś ukryte niebezpieczeństwa?
distributions
bayesian
modeling
prior
maximum-entropy
John Salvatier
źródło
źródło
Odpowiedzi:
Poleciłbym użyć „rozkładu beta drugiego rodzaju” ( w skrócie Beta 2 ) dla lekko informacyjnego rozkładu i zastosować sprzężoną odwrotną dystrybucję gamma, jeśli masz silne wcześniejsze przekonania. Mówię, że to dlatego, że przeor sprzężony nie jest solidny w tym sensie, że jeśli przeor i konflikt danych są sprzeczne, przeor ma nieograniczony wpływ na rozkład a posteriori. Takie zachowanie nazwałbym „dogmatycznym” i nie jest uzasadnione łagodnymi wcześniejszymi informacjami.
Właściwością, która determinuje solidność, jest zachowanie ogona przeora i prawdopodobieństwa. Bardzo dobry artykuł opisujący szczegóły techniczne znajduje się tutaj . Na przykład, można wybrać prawdopodobieństwo (powiedzmy rozkład t), tak że jako obserwacja (tzn. Staje się dowolnie duża) jest odrzucana z analizy parametru lokalizacji (w podobny sposób, jak intuicyjnie zrobić z taką obserwacją). Szybkość „odrzucania” zależy od tego, jak ciężkie są ogony dystrybucji.yja→ ∞
Niektóre slajdy przedstawiające aplikację w kontekście modelowania hierarchicznego można znaleźć tutaj (pokazuje matematyczną postać dystrybucji Beta 2 ), tutaj jest artykuł .
Jeśli nie jesteś w kontekście modelowania hierarchicznego, sugerowałbym porównanie a posteriora (lub cokolwiek, co tworzysz), ale wcześniej użyj Jeffreysa dla parametru skali, który podaje . Można to utworzyć jako limit gęstości Beta 2, ponieważ oba jego parametry są zbieżne do zera. Dla przybliżenia można użyć małych wartości. Ale spróbuję wypracować analityczne rozwiązanie, jeśli to w ogóle możliwe (a jeśli nie jest to kompletne rozwiązanie analityczne, uzyskaj rozwiązanie analityczne tak daleko posunięte, jak to możliwe), ponieważ nie tylko zaoszczędzisz sobie trochę czasu obliczeniowego, ale jesteś prawdopodobnie lepiej zrozumiesz, co dzieje się w twoim modelu.p ( σ) ∝ 1σ
Kolejną alternatywą jest podanie wcześniejszych informacji w formie ograniczeń (średnia równa , wariancja równa , IQR równa itp. Z podanymi przez Ciebie wartościami ), a następnie użyj maksymalny rozkład entropii (wyszukaj dowolne dzieło Edwina Jaynesa lub Larry'ego Bretthorsta, aby uzyskać dobre wyjaśnienie, czym jest Maksymalna Entropia, a czym nie jest) w odniesieniu do „niezmiennej miary” Jeffreysa . V I Q R M , V , I Q R m ( σ ) = 1M. V. jaQ R. M., V, JaQ R. m ( σ) = 1σ
MaxEnt jest wersją „Rolls Royce”, podczas gdy Beta 2 jest bardziej wersją „sedan”. Powodem tego jest to, że dystrybucja MaxEnt „zakłada najmniej” z zastrzeżeniem ograniczeń, które na nią włożyłeś (np. Brak ograniczeń oznacza, że wcześniej otrzymałeś Jeffreysa), podczas gdy dystrybucja Beta 2 może zawierać pewne „ukryte” funkcje, które może, ale nie musi być pożądane w twoim konkretnym przypadku (np. jeśli wcześniejsze informacje są bardziej wiarygodne niż dane, to Beta 2 jest zła).
Inną miłą właściwością dystrybucji MaxEnt jest to, że jeśli w mechanizmie generującym dane nie działają żadne nieokreślone ograniczenia, to rozkład MaxEnt jest zdecydowanie najbardziej prawdopodobnym rozkładem, jaki zobaczysz (mówimy o szansach ponad miliardów i trylionów do jednego). Dlatego jeśli rozkład, który widzisz, nie jest rozkładem MaxEnt, prawdopodobnie istnieją dodatkowe ograniczenia, których nie określiłeś, działając na prawdziwym procesie, a zaobserwowane wartości mogą dostarczyć wskazówek co do tego, jakie to ograniczenie może być.
źródło
Poniższy artykuł autorstwa Danielsa porównuje różne priory skurczu dla wariancji. Są to właściwe priorytety, ale nie jestem pewien, ilu można nazwać nieinformacyjnymi, jeśli w ogóle. Ale zapewnia także listę nieinformacyjnych priorów (nie wszystkie właściwe). Poniżej znajduje się odniesienie.
Priors
Kolejny nowszy artykuł w podobnej żyle jest następujący.
źródło
(Pytanie jest nieaktualne, ale problem nie jest)
Osobiście uważam, że twoja intuicja ma jakiś sens. Innymi słowy, jeśli nie potrzebujesz matematycznej porządkowości koniugacji, to niezależnie od rozkładu, którego użyłbyś dla parametru lokalizacji, powinieneś użyć tego samego dla dziennika parametru skali. Mówisz więc: użyj odpowiednika zwykłego przeora.
Czy rzeczywiście użyłbyś normalnego wcześniejszego parametru parametru? Większość ludzi powiedziałaby, że o ile nie sprawisz, że wariancja będzie ogromna, jest to prawdopodobnie nieco „zbyt dogmatyczne”, z powodów wyjaśnionych w innych odpowiedziach tutaj (wpływ nieograniczony). Wyjątkiem jest sytuacja, gdy wykonujesz empiryczne bayes; to znaczy, używając danych do oszacowania parametrów swojego przeora.
Jeśli chcesz być „słabo informacyjny”, prawdopodobnie wybrałbyś dystrybucję z grubszymi ogonami; oczywistymi kandydatami są t rozkłady. Wydaje się, że najnowszą radą Gelmana jest stosowanie df przy 3-7. (Zauważ, że link obsługuje również moją sugestię, że chcesz zrobić to samo dla dziennika skali, co zrobiłbyś dla lokalizacji) Więc zamiast lognormal, możesz użyć log-student-t. Aby to osiągnąć, możesz zrobić coś takiego:
Myślę jednak, że jeśli powyższy kod jest dla Ciebie zbyt skomplikowany, prawdopodobnie mógłbyś uniknąć logarytmicznego przeora z dwoma zastrzeżeniami. Po pierwsze, spraw, aby wariancja tego przeora była kilka razy szersza niż zgrubne przypuszczenie, jak „jesteś niepewny”; chcesz wcześniej słabo informacyjnego, a nie silnie informacyjnego. Po drugie, po dopasowaniu modelu sprawdź tylną medianę parametru i upewnij się, że jego log nie znajduje się zbyt daleko od środka logarytmu normalnego. „Nie za daleko” prawdopodobnie oznacza: mniej niż dwa odchylenia standardowe, a najlepiej niewiele więcej niż jedno SD.
źródło
W przypadku hierarchicznych parametrów skali modelu najczęściej skończyłem na sugestii Andrew Gelmana o zastosowaniu złożonego, niecentralnego rozkładu T. To działało dla mnie całkiem przyzwoicie.
źródło