Co to jest „Prior Information Unit”?

Odpowiedzi:

6

Prior informacji o jednostce jest Prior zależny od danych (zwykle Normalna na wielu odmianach) ze średnią w MLE i dokładnością równą informacjom dostarczonym przez jedną obserwację. Zobacz np. Ten raport techniczny lub ten dokument, aby uzyskać szczegółowe informacje. Ideą UIP jest nadanie przeorowi, że „dane mówią same za siebie”; w większości przypadków dodanie wcześniejszej informacji mówi tak samo, jak jedna obserwacja skoncentrowana na tym, gdzie inne dane „wskazują”, będzie mieć niewielki wpływ na późniejszą analizę. Jednym z jego głównych zastosowań jest wykazanie, że użycie BIC odpowiada, w dużych próbkach, zastosowaniu czynników Bayesa, z UIP na ich parametrach.

Prawdopodobnie warto również zauważyć, że wielu statystyków (w tym Bayesianie) nie czuje się komfortowo przy użyciu czynników Bayesa i / lub BIC w przypadku wielu zastosowanych problemów.

Gość
źródło
2
BIC nie jest narzędziem bayesowskim, ponieważ usuwa wpływ wcześniejszego. Jako Bayesian czuję się dobrze z czynnikami Bayesa, ale nie z AIC, BIC ani DIC!
Xi'an
Cóż, nigdy nie powiedziałem, że tak! Jako Bayesian (który przeczytał i ceni Bayesian Choice) byłbym zadowolony z dowolnej z tych metod, gdyby miały jakieś teoretyczne uzasadnienie, nawet w przybliżeniu, użyteczności, która odzwierciedlałaby to, co chciałem osiągnąć w analizie.
gość
Dziękuję za odpowiedzi. Poprosiłem kontynuacją pytanie tutaj
Matt Albrecht
2

Informacje o jednostce wcześniej oparte są na następującej interpretacji koniugacji:

Ustawiać

  • Normalne dane: z z nieznany i znane. Dane można następnie w wystarczającym stopniu podsumować za pomocą średniej próbki, która przed zauważeniem jakiegokolwiek układu odniesienia jest dystrybuowana zgodnie z .Xn=(X1,,Xn)XiN(μ,σ2)μσ2X¯N(μ,σ2n)
  • Zwykły przed :μ Z z tą samą wariancją jak w danych.μN(a,σ2)
  • Normalne tylne dla :μ Z gdzie i .μN(M,v)M=1n+1(a+nx¯)v=σ2n+1

Interpretacja

Dlatego po zaobserwowaniu danych mamy tylny for który koncentruje się na wypukłej kombinacji obserwacji i tego, co postulowano przed zaobserwowaniem danych, że jest . Co więcej, wariancja tylnej jest następnie podawana przez , stąd, jakbyśmy mieli obserwacji zamiastX¯=x¯μx¯aσ2n+1n+1nporównał rozkład próbkowania średniej próbki. Zauważ, że rozkład próbkowania nie jest taki sam jak rozkład tylny. Niemniej jednak wygląda to tak z tyłu, co pozwala mówić za siebie. Dlatego też, informacje, jednostkę przed dostaje tylnego, która jest głównie skoncentrowany na danych i skurczona do wcześniejszej informacji jako jednorazową karę.x¯a

Kass i Wasserman wykazali ponadto, że wybór modelu kontra z powyższym wcześniej można dobrze zbliżyć za pomocą kryterium Schwartza (w zasadzie BIC / 2), gdy jest duże.M0:μ=aM1:μRn

Kilka uwag:

  • Fakt, że BIC aproksymuje współczynnik Bayesa na podstawie wcześniejszych informacji o jednostce, nie oznacza, że ​​powinniśmy użyć informacji o jednostce przed zbudowaniem czynnika Bayesa. Domyślnym wyborem Jeffreysa (1961) jest użycie Cauchy'ego przed wielkością efektu, patrz także Ly i in. (w druku) w celu wyjaśnienia wyboru Jeffreysa.
  • Kass i Wasserman wykazali, że BIC podzielony przez stałą (która wiąże Cauchy'ego z rozkładem normalnym) może być nadal stosowany jako przybliżenie współczynnika Bayesa (tym razem na podstawie wcześniejszego Cauchy'ego zamiast normalnego).

Bibliografia

  • Jeffreys, H. (1961). Teoria prawdopodobieństwa . Oxford University Press, Oxford, Wielka Brytania, 3 edycja.
  • Kass, RE i Wasserman, L. (1995). „Referencyjny test bayesowski dla zagnieżdżonych hipotez i ich związek z kryterium Schwarza”, Journal of the American Statistics Association , 90, 928-934
  • Ly, A., Verhagen, AJ i Wagenmakers, E.-J. (w prasie). Domyślne testy Bayesa oparte na czynnikach Bayesa: wyjaśnienie, rozszerzenie i zastosowanie w psychologii. Journal of Mathematical Psychology.
Alexander Ly
źródło