Czy estymator Bayesa wymaga, aby prawdziwy parametr był możliwym wariantem wcześniejszego?

9

To może być trochę filozoficzne pytanie, ale zaczynamy: W teorii decyzji ryzyko estymatora Bayesa dla jest określone w odniesieniu do wcześniejszego rozkładu \ pi na \ Theta .θ^(x)θΘπΘ

Z jednej strony, aby prawda wygenerowała dane (tj. „Istnieje”), musi być możliwą zmienną poniżej , np. Mieć niezerowe prawdopodobieństwo, niezerową gęstość itp .; Z drugiej strony, nie jest znany, stąd wybór przed, więc nie mamy żadnej gwarancji, że prawdziwe jest możliwe variate pod wybraliśmy.θθπθθπ

Teraz wydaje mi się, że musimy w jakiś sposób wybrać π , aby θ byłaby możliwą odmianą. W przeciwnym razie niektóre twierdzenia nie miałyby zastosowania. Na przykład, oszacowanie minimaksa nie byłoby oszacowaniem Bayesa dla najmniej korzystnego z góry, ponieważ moglibyśmy uczynić to uprzednio arbitralnie złym, wykluczając duży region wokół i włączając θ ze swojej domeny. Jednak zagwarantowanie, że θ rzeczywiście należy do dziedziny, może być trudne do osiągnięcia.

Więc moje pytania to:

  1. Czy ogólnie przyjmuje się, że rzeczywista θ jest możliwą odmianą π ?
  2. Czy można to zagwarantować?
  3. Czy przypadki naruszające to przynajmniej można w jakiś sposób wykryć, więc nie można polegać na twierdzeniach takich jak minimax, gdy warunki nie są spełnione?
  4. Jeśli nie jest to wymagane, dlaczego mają zastosowanie standardowe wyniki teorii teorii?
użytkownik32849
źródło

Odpowiedzi:

6

Bardzo miłe pytanie! Rzeczywiście miałoby sens, że „dobry” wcześniejszy rozkład daje dodatnie prawdopodobieństwo lub dodatnią wartość gęstości dla „prawdziwego” parametru , ale z czysto decyzyjnego punktu widzenia nie musi tak być. Prosty przeciwny przykład do tej „intuicji”, że powinien być konieczny, gdy jest wcześniejszą gęstością, a jest „prawdziwą” wartością parametru, jest genialny wynik minimaksji Caselli i Strawdermana (1981): przy szacowaniu średniej normalnej na podstawie pojedynczej obserwacji z dodatkowym ograniczeniem, że ,θ0

π(θ0)>0
π()θ0μxN.(μ,1)|μ|<ρρjest na tyle mała, szczegółowo, minimaksowe odpowiada estymatora A (co najmniej korzystne) jednolity przed o , co oznacza, że daje równą wagę i ( i żadna inna wartość średniej ) Kiedy wzrasta, najmniej sprzyjający poprzedni, jego wsparcie rośnie, ale pozostaje skończonym zestawem możliwych wartości. Jednak późniejsze oczekiwanie, , może przyjąć dowolną wartość .ρ1,0567{-ρ,ρ}π-ρρμ
π(θ)=12)δ-ρ(θ)+12)δρ(θ)
ρmi[μ|x](-ρ,ρ)

Istotą dyskusji (patrz komentarze) może być to, że gdyby estymator Bayesa był ograniczony do punktu wsparcia , jego właściwości byłyby zupełnie inne.π()

Podobnie, gdy rozważane są dopuszczalne estymatory, estymatory Bayesa powiązane z odpowiednim wcześniejszym na zwartym zbiorze są zwykle dopuszczalne, chociaż mają ograniczone wsparcie.

W obu przypadkach pojęcie częstokroć (minimaksymalność lub dopuszczalność) jest definiowane na podstawie możliwego zakresu parametrów, a nie na „prawdziwej” wartości parametru (co daje odpowiedź na pytanie 4). Na przykład, patrząc na ryzyko tylne lub na ryzyko Bayesa nie obejmuje prawdziwej wartości .

ΘL.(θ,δ)π(θ|x)reθ
XΘL.(θ,δ)π(θ)fa(x|θ)reθrex
θ0

Ponadto, jak wskazano w powyższym przykładzie, gdy estymator Bayesa jest zdefiniowany przez wyrażenie formalne, takie jak średnia tylna dla straty kwadratowej (lub ), estymator może przyjmować wartości poza wsparciem w przypadkach, gdy wsparcie to nie jest wypukłe.

θ^π(x)=Θθπ(θ|x)reθ
L.2)π

Na marginesie, podczas czytania

aby prawda θ wygenerowała dane (tj. „istnieje”), θ musi być możliwą zmienną w ramach π, np. mieć niezerowe prawdopodobieństwo, niezerową gęstość

Uważam to za wprowadzenie w błąd co do znaczenia przeora. Wcześniejszy rozkład nie powinien oznaczać faktycznego mechanizmu fizycznego (lub rzeczywistego), który widział wartość parametru wygenerowaną z po której nastąpiła obserwacja wygenerowana z . Prior jest miarą odniesienia w przestrzeni parametrów, która zawiera wcześniejsze informacje i subiektywne przekonania na temat parametru i nie jest w żaden sposób wyjątkowa. Analiza bayesowska jest zawsze względna w stosunku do wcześniej wybranych do przeprowadzenia tej analizy bayesowskiej. Dlatego nie ma absolutnej konieczności, aby prawdziwy parametr należał do obsługi . Oczywiście, gdy to wsparcie jest kompaktowym połączonym zestawem,θ0πxfa(x|θ0)πZA, żadnej wartości parametru poza zestawem nie można konsekwentnie oszacować za pomocą średniej tylnej ale to nawet nie wyklucza dopuszczalności estymatora.ZAθ^π

Xi'an
źródło
Jeśli chodzi o twój ostatni punkt, to mnie dezorientuje: powiedz, że mam pewien rozkład normalny, gdzie jest wystarczająco małą liczbą ujemną. Jeśli z jakiegoś dziwnego powodu ustawię log-normal przed (wsparcie ) na (niezależnie od tego, jaki sens to ma sens), estymator Bayesa pod takim wyprzedzeniem z pewnością byłby gorszy niż szacunek minimax , co nie powinno się zdarzyć. Ale może coś tutaj źle interpretuję ...μ[0,+)μ
user32849
1
Zazwyczaj, patrz Berger (1985), najmniej korzystny uprzedni odpowiada ryzyku minimax.
Xi'an
1
Byłem tu naprawdę zdezorientowany: twoja książka (rozdział 2) zdawała się zakładać, że , a konkretnie, w twierdzeniu 2.4.17, , gdzie najmniej korzystne Prior jest dyskretnym rozkładem w . Ale chyba powinienem był uważniej przeczytać stronę 10 ;-)θπ(θ)Θ=[-m,m]Θ
user32849
1
Zintegrowane ryzyko nie obejmuje „prawdziwego” parametru na żadnym etapie. W tym sensie nie ma to znaczenia.
Xi'an
1
W pewnym sensie ryzyko ujmuje oczekiwaną stratę, a nie tę, której faktycznie doświadczamy. To było niezwykle pomocne, dziękuję bardzo!
user32849
8
  1. Tak, ogólnie przyjmuje się, że prawda należy do dziedziny wcześniejszej. Statystyk jest odpowiedzialny za sprawdzenie, czy tak jest.θ

  2. Zazwyczaj tak. Na przykład, podczas szacowania parametru średniej lub lokalizacji, każdy przed będzie miał prawdziwą wartość w swojej dziedzinie. (Jeśli wiadomo, że parametr jest większy od zera, np. „Średnia liczba wypadków drogowych na Bay Bridge dziennie”, wcześniejszy nie musi oczywiście zawierać wartości ujemnych.) Jeśli szacujemy prawdopodobieństwo, wszelkie przed będzie miał prawdziwą wartość w swojej dziedzinie. Jeśli konstruujemy wyrażenie poprzedzające na wariacji wariancji, każde wyrażenie poprzedzające będzie miało prawdziwą wartość w swojej dziedzinie ... i tak dalej.(-,)[0,1](0,)

  3. Jeśli twój tyłek jest „ułożony” na jednej krawędzi domeny przeora, a twój przełożony niepotrzebnie ogranicza domenę na tej samej krawędzi, jest to wskaźnik ad-hoc, że niepotrzebne ograniczenie może powodować problemy. Powinno to jednak nastąpić tylko wtedy, gdy: a) zbudowałeś przeora, którego forma opiera się głównie na wygodzie, a nie na faktycznej wcześniejszej wiedzy, oraz b) wymuszona przez niego forma uprzedniego ograniczenia ogranicza dziedzinę parametru do podzbioru tego, co jego „ domenę naturalną można uznać za.

Przykładem takiej jest stara, miejmy nadzieję, już dawno przestarzała, praktyka polegająca na ograniczaniu wcześniejszego terminu wariacją nieco od zera w celu uniknięcia potencjalnych trudności obliczeniowych. Jeśli prawdziwa wartość wariancji mieści się między granicą a zerem, cóż ... ale faktyczne myślenie o potencjalnych wartościach wariancji na podstawie danych lub (na przykład) umieszczenie wcześniejszego dziennika w dzienniku wariancji, pozwoli aby uniknąć tego problemu, a podobna łagodna spryt powinna pozwolić ci na uniknięcie ograniczeń związanych z domeną w ogóle.

  1. Odpowiedzi udzielił nr 1.
łucznik
źródło
2
Na przypadek, że ktokolwiek głosował za odpowiedzią, powraca - dlaczego „nieprzydatny”?
jbowman
3

Prosta, intuicyjna odpowiedź jest taka, że wcześniejsze odzwierciedlają twoją wcześniejszą wiedzę na tematθa minimalna wiedza, którą powinieneś mieć, dotyczy jej domeny. Jeśli użyjesz wcześniej opcji ograniczonej, zakładasz, że wartości poza granicami mają zerowe prawdopodobieństwo, są niemożliwe, a jest to bardzo mocne założenie, którego nie należy przyjmować bez dobrego uzasadnienia. Dlatego ludzie, którzy nie chcą opierać się na wcześniejszych założeniach, używają niejasnych priorytetów- do .

Oprócz ograniczonego przypadku, gdy próbka rośnie, a dokładniej przekazuje więcej informacji, twój tylny powinien w końcu zbiegać się do θ bez względu na wcześniejsze .

Tim
źródło