Aktualizacja współczynnika Bayesa

9

Wartością współczynnika Bayesa jest zdefiniowana w Bayesa testowanie hipotez i wybór modelu Bayesowskiego przez stosunek dwóch krańcowych wiarogodności: podany Próbkę IID i odpowiednich gęstości próbkowania i , z odpowiednimi priorytetami i , współczynnikiem Bayesa do porównania dwóch modeli jest książka ja obecnie przeglądu ma dziwne stwierdzenie, że powyższy czynnik Bayesa(x1,,xn)f1(x|θ)f2(x|η)π1π2

B12(x1,,xn)=defm1(x1,,xn)m2(x1,,xn)=defi=1nf1(xi|θ)π1(dθ)i=1nf2(xi|η)π2(dη)
B12(x1,,xn) jest „utworzony przez pomnożenie poszczególnych [czynników Bayesa] razem” (str. 118). Jest to formalnie poprawne, jeśli używa się rozkładu ale nie widzę przewagi obliczeniowej w tym rozkładzie jak aktualizacja \ frac {m_1 (x_n | x_1, \ ldots, x_ {n-1})} {m_2 (x_n | x_1, \ ldots, x_ {n-1})}} wymaga takiego samego wysiłku obliczeniowego jak oryginalne obliczenie \ frac {m_1 (x_1 , \ ldots, x_n)} {m_2 (x_1, \ ldots, x_n)}
B12(x1,,xn)=m1(x1,,xn)m2(x1,,xn)=m1(xn|x1,,xn1)m2(xn|x1,,xn1)×m1(xn1|xn2,,x1)m2(xn1|xn2,,x1)××m1(x1)m2(x1)
m1(xn|x1,,xn1)m2(xn|x1,,xn1)
m1(x1,,xn)m2(x1,,xn)
poza przykładami sztucznych zabawek.

Pytanie: Czy istnieje ogólny i wydajny obliczeniowo sposób aktualizacji współczynnika Bayesa z B12(x1,,xn) do B12(x1,,xn+1) , który nie wymaga przeliczenia całego marginesu m1(x1,,xn) i m2(x1,,xn) ?

Moją intuicją jest to, że oprócz filtrów cząstek, które rzeczywiście postępują zgodnie z oszacowaniami czynników Bayesa B12(x1,,xn) jedna nowa obserwacja na raz, nie ma naturalnego sposobu odpowiedzi na to pytanie .

Xi'an
źródło
1
Nie wydaje mi się jasne, że to sformułowanie oznacza koniecznie sekwencjonowanie , ponieważ obserwacje są przedstawione. Podczas nauki w szkole profesor wspomniał, że produkt sugeruje, że można zastosować asymptotyczne aproksymacje do analiz bayesowskich, ale o dziwo to się nie przyjęło (sarkazm). Być może książka może to sugerować?
Cliff AB
@CliffAB: Tak, możesz przepisać prawdopodobieństwo jako średnią poszczególnych terminów, zbliżając się do odległości Kullbacka-Leiblera od prawdziwego rozkładu. Ale nie sądzę, że tak jest, mimo że książka jest na tyle niejasna, że ​​wszystkie opcje są otwarte.
Xi'an,
1
Wydaje mi się, że w drugim wyświetlanym równaniu jest literówka: czy w drugim czynniku w drugim wierszu powinno byćm1(xn1|xn1,,x1)
jochen

Odpowiedzi:

4

Przypuszczalnie celem równania rekurencyjnego dla współczynnika Bayesa byłoby, gdy już obliczyłeś współczynnik Bayesa dla punktów danych, i chcesz móc to zaktualizować o jeden dodatkowy punkt danych. Wydaje się, że można to zrobić bez ponownego obliczenia marginesów poprzedniego wektora danych, o ile znana jest postać funkcji tylnej . Zakładając, że znamy postać tej funkcji (i zakładając dane IID jak w twoim pytaniu), gęstość predykcyjna może być zapisana jako:nπn

m(xn+1|x1,...,xn)=Θf(xn+1|θ)πn(dθ|x1,...,xn).

Dlatego masz:

m(x1,...,xn+1)=m(x1,...,xn)Θf(xn+1|θ)πn(dθ|x1,...,xn).

Porównując dwie klasy modeli za pomocą współczynnika Bayesa, otrzymujemy równanie rekurencyjne:

B12(x1,...,xn+1)=B12(x1,...,xn)Θ1f(xn+1|θ)π1,n(dθ|x1,...,xn)Θ2f(xn+1|θ)π2,n(dθ|x1,...,xn).

Wciąż obejmuje to integrację w zakresie parametrów, więc zgadzam się z twoim poglądem, że nie wydaje się, aby istniała jakaś przewaga obliczeniowa w porównaniu z ponownym obliczeniem współczynnika Bayesa za pomocą początkowej formuły, którą podałeś. Niemniej jednak widać, że nie wymaga to ponownego obliczenia marginesów dla poprzedniego wektora danych. (Zamiast tego obliczamy gęstości predykcyjne nowego punktu danych w zależności od poprzednich danych, w ramach każdej z klas modeli.) Tak jak ty, tak naprawdę nie widzę żadnej przewagi obliczeniowej, chyba że zdarza się, że ta integralna formuła łatwo się upraszcza. W każdym razie, jak sądzę, daje to inną formułę do aktualizacji współczynnika Bayesa.

Ben - Przywróć Monikę
źródło
Dziękuję Ci. To prawda, że ​​marginesy nie muszą być ponownie obliczane, ściśle sensu , ale ilość obliczeń wydaje się być taka sama, jak zauważasz.
Xi'an
Jedyną zaletą, o której mogę myśleć, jest to, że ponieważ teraz integrujemy się tylko w ramach jednej gęstości (zamiast iloczynu gęstości), integrand będzie mniej zmienny, a więc ta druga formuła może ułatwić uniknięcie problemów z niedopełnieniem w obliczenie. To wszystko może być jednak duże. n
Ben - Przywróć Monikę