Bardzo miłe pytanie! Rzeczywiście miałoby sens, że „dobry” wcześniejszy rozkład daje dodatnie prawdopodobieństwo lub dodatnią wartość gęstości dla „prawdziwego” parametru , ale z czysto decyzyjnego punktu widzenia nie musi tak być. Prosty przeciwny przykład do tej „intuicji”, że powinien być konieczny, gdy jest wcześniejszą gęstością, a jest „prawdziwą” wartością parametru, jest genialny wynik minimaksji Caselli i Strawdermana (1981): przy szacowaniu średniej normalnej na podstawie pojedynczej obserwacji z dodatkowym ograniczeniem, że ,θ0
π(θ0) > 0
π( ⋅ )θ0μx ∼ N( μ , 1 )| μ | <ρρjest na tyle mała, szczegółowo, minimaksowe odpowiada estymatora A (co najmniej korzystne) jednolity przed o , co oznacza, że daje równą wagę i ( i żadna inna wartość średniej )
Kiedy wzrasta, najmniej sprzyjający poprzedni, jego wsparcie rośnie, ale pozostaje skończonym zestawem możliwych wartości. Jednak późniejsze oczekiwanie, , może przyjąć dowolną wartość .
ρ ≤ 1,0567{ - ρ , ρ }π- ρρμπ( θ ) =12)δ- ρ( θ ) +12)δρ( θ )
ρE [μ | x]( - ρ , ρ )
Istotą dyskusji (patrz komentarze) może być to, że gdyby estymator Bayesa był ograniczony do punktu wsparcia
, jego właściwości byłyby zupełnie inne.π( ⋅ )
Podobnie, gdy rozważane są dopuszczalne estymatory, estymatory Bayesa powiązane z odpowiednim wcześniejszym na zwartym zbiorze są zwykle dopuszczalne, chociaż mają ograniczone wsparcie.
W obu przypadkach pojęcie częstokroć (minimaksymalność lub dopuszczalność) jest definiowane na podstawie możliwego zakresu parametrów, a nie na „prawdziwej” wartości parametru (co daje odpowiedź na pytanie 4). Na przykład, patrząc na ryzyko tylne
lub na ryzyko Bayesa
nie obejmuje prawdziwej wartości .
∫ΘL ( θ , δ) π( θ | x ) d θ
∫X∫ΘL ( θ , δ) π( θ ) f( x | θ ) d θ d x
θ0
Ponadto, jak wskazano w powyższym przykładzie, gdy estymator Bayesa jest zdefiniowany przez wyrażenie formalne, takie jak średnia tylna
dla straty kwadratowej (lub ), estymator może przyjmować wartości poza wsparciem w przypadkach, gdy wsparcie to nie jest wypukłe.
θ^π( x ) =∫Θθ π( θ | x ) d θ
L.2)π
Na marginesie, podczas czytania
aby prawda θ wygenerowała dane (tj. „istnieje”), θ musi być możliwą zmienną w ramach π, np. mieć niezerowe prawdopodobieństwo, niezerową gęstość
Uważam to za wprowadzenie w błąd co do znaczenia przeora. Wcześniejszy rozkład nie powinien oznaczać faktycznego mechanizmu fizycznego (lub rzeczywistego), który widział wartość parametru wygenerowaną z po której nastąpiła obserwacja wygenerowana z . Prior jest miarą odniesienia w przestrzeni parametrów, która zawiera wcześniejsze informacje i subiektywne przekonania na temat parametru i nie jest w żaden sposób wyjątkowa. Analiza bayesowska jest zawsze względna w stosunku do wcześniej wybranych do przeprowadzenia tej analizy bayesowskiej. Dlatego nie ma absolutnej konieczności, aby prawdziwy parametr należał do obsługi . Oczywiście, gdy to wsparcie jest kompaktowym połączonym zestawem,θ0πxfa( x |θ0)πZA, żadnej wartości parametru poza zestawem nie można konsekwentnie oszacować za pomocą średniej tylnej ale to nawet nie wyklucza dopuszczalności estymatora.ZAθ^π
Tak, ogólnie przyjmuje się, że prawda należy do dziedziny wcześniejszej. Statystyk jest odpowiedzialny za sprawdzenie, czy tak jest.θ
Zazwyczaj tak. Na przykład, podczas szacowania parametru średniej lub lokalizacji, każdy przed będzie miał prawdziwą wartość w swojej dziedzinie. (Jeśli wiadomo, że parametr jest większy od zera, np. „Średnia liczba wypadków drogowych na Bay Bridge dziennie”, wcześniejszy nie musi oczywiście zawierać wartości ujemnych.) Jeśli szacujemy prawdopodobieństwo, wszelkie przed będzie miał prawdziwą wartość w swojej dziedzinie. Jeśli konstruujemy wyrażenie poprzedzające na wariacji wariancji, każde wyrażenie poprzedzające będzie miało prawdziwą wartość w swojej dziedzinie ... i tak dalej.( - ∞ , ∞ ) [ 0 , 1 ] ( 0 , ∞ )
Jeśli twój tyłek jest „ułożony” na jednej krawędzi domeny przeora, a twój przełożony niepotrzebnie ogranicza domenę na tej samej krawędzi, jest to wskaźnik ad-hoc, że niepotrzebne ograniczenie może powodować problemy. Powinno to jednak nastąpić tylko wtedy, gdy: a) zbudowałeś przeora, którego forma opiera się głównie na wygodzie, a nie na faktycznej wcześniejszej wiedzy, oraz b) wymuszona przez niego forma uprzedniego ograniczenia ogranicza dziedzinę parametru do podzbioru tego, co jego „ domenę naturalną można uznać za.
Przykładem takiej jest stara, miejmy nadzieję, już dawno przestarzała, praktyka polegająca na ograniczaniu wcześniejszego terminu wariacją nieco od zera w celu uniknięcia potencjalnych trudności obliczeniowych. Jeśli prawdziwa wartość wariancji mieści się między granicą a zerem, cóż ... ale faktyczne myślenie o potencjalnych wartościach wariancji na podstawie danych lub (na przykład) umieszczenie wcześniejszego dziennika w dzienniku wariancji, pozwoli aby uniknąć tego problemu, a podobna łagodna spryt powinna pozwolić ci na uniknięcie ograniczeń związanych z domeną w ogóle.
źródło
Prosta, intuicyjna odpowiedź jest taka, że wcześniejsze odzwierciedlają twoją wcześniejszą wiedzę na tematθ a minimalna wiedza, którą powinieneś mieć, dotyczy jej domeny. Jeśli użyjesz wcześniej opcji ograniczonej, zakładasz, że wartości poza granicami mają zerowe prawdopodobieństwo, są niemożliwe, a jest to bardzo mocne założenie, którego nie należy przyjmować bez dobrego uzasadnienia. Dlatego ludzie, którzy nie chcą opierać się na wcześniejszych założeniach, używają niejasnych priorytetów- ∞ do ∞ .
Oprócz ograniczonego przypadku, gdy próbka rośnie, a dokładniej przekazuje więcej informacji, twój tylny powinien w końcu zbiegać się doθ bez względu na wcześniejsze .
źródło