Kroki, aby ustalić rozkład boczny, kiedy może być wystarczająco prosty, aby mieć postać analityczną?

12

Zapytano o to również w Computational Science.

Próbuję obliczyć bayesowskie oszacowanie niektórych współczynników dla autoregresji, z 11 próbkami danych: gdzie jest Gaussa ze średnią 0 i wariancją Wcześniejszy rozkład na wektorze jest Gaussa ze średnią i ukośną macierzą kowariancji z wpisy ukośne równe .

Yi=μ+αYi1+ϵi
ϵiσe2(μ,α)t(0,0)σp2

W oparciu o formułę autoregresji oznacza to, że rozkład punktów danych ( Yi ) jest normalny ze średnią μ+αYi1 i wariancją σe2 . Tak więc gęstość wszystkich punktów danych (Y) łącznie (przy założeniu niezależności, co jest w porządku dla programu, który piszę), będzie wynosić:

p(Y|(μ,α)t)=i=21112πσe2exp(YiμαYi1)22σe2.

Twierdzeniem Bayesa możemy wziąć iloczyn powyższej gęstości z wcześniejszą gęstością, a wtedy potrzebujemy tylko stałej normalizującej. Mam przeczucie, że powinno to działać jako rozkład Gaussa, więc możemy się martwić o stałą normalizującą na końcu, zamiast jawnie obliczać ją za pomocą całek względem μ i α .

Z tą częścią mam problem. Jak obliczyć mnożenie wcześniejszej gęstości (która jest wielowymiarowa) i iloczynu gęstości danych jednowymiarowych? Tylny musi mieć czystą gęstość μ i α , ale nie widzę, jak można to uzyskać z takiego produktu.

Wszelkie wskazówki są naprawdę pomocne, nawet jeśli po prostu skierujesz mnie we właściwym kierunku, a następnie muszę iść i zrobić bałaganiarską algebrę (co próbowałem już kilka razy).

Na początek jest postać licznika z reguły Bayesa:

1(2πσe2)52πσp2exp[12σe2i=211(YiμαYi1)2μ22σp2α22σp2].

Problem polega na tym, jak zobaczyć, że zmniejsza się to do gęstości Gaussa .(μ,α)t

Dodany

Ostatecznie sprowadza się to do następującego ogólnego problemu. Jeśli otrzymasz jakieś wyrażenie kwadratowe, takie jak jak to ująć w formę kwadratową dla niektórych macierzy 2x2 ? W prostych przypadkach jest to dość proste, ale jakiego procesu używasz, aby uzyskać średnie oszacowania, i ?

Aμ2+Bμα+Cα2+Jμ+Kα+L
(μμ^,αα^)Q(μμ^,αα^)tQμ^α^

Uwaga: wypróbowałem prostą opcję rozszerzenia formuły macierzowej, a następnie próbowałem zrównać współczynniki jak powyżej. Problem w moim przypadku polega na tym, że stała wynosi zero, a następnie otrzymuję trzy równania w dwóch niewiadomych, więc niedokładne jest jedynie dopasowanie współczynników (nawet jeśli założę symetryczną macierz kwadratową).L

Ely
źródło
Moja odpowiedź na [to pytanie] ( stats.stackexchange.com/questions/22852/… ) może być pomocna. Zauważ, że potrzebujesz pierwszej do pierwszej obserwacji - iteracje na tym się kończą.
probabilityislogic
Nie rozumiem, dlaczego potrzebuję tego w tym przypadku. Przedziały czasowe mam traktować tak, jakby były uwarunkowane niezależnie od obserwacji. Zauważ, że iloczyn gęstości złącza wynosi właśnie od . Nie sądzę, żebym miał tu pobierać sekwencyjnie aktualizowaną formułę, tylko jedną formułę dla tylnego . p ( ( μ , α ) ti=2..11p((μ,α)t|Y)
ely
„Wielowariantowa” we wcześniejszym nie jest sprzeczna z „jednowymiarową” w gęstości danych, ponieważ są to gęstości w . y ip(α,μ)yi
Xi'an

Odpowiedzi:

7

Wskazówka, która znajdowała się w mojej odpowiedzi na poprzednią odpowiedź, to przyjrzeć się temu, jak zintegrowałem parametry - ponieważ zrobisz tutaj dokładnie te same całki. Pytanie zakłada, że ​​parametry wariancji są znane, więc są one stałymi. Wystarczy spojrzeć na zależność od licznika. Aby to zobaczyć, zauważ, że możemy napisać:α,μ

p(μ,α|Y)=p(μ,α)p(Y|μ,α)p(μ,α)p(Y|μ,α)dμdα
=1(2πσe2)52πσp2exp[12σe2i=211(YiμαYi1)2μ22σp2α22σp2]1(2πσe2)52πσp2exp[12σe2i=211(YiμαYi1)2μ22σp2α22σp2]dμdα

Zauważ, można przesunąć pierwszy współczynnik się podwójnej całki na mianowniku, i kasuje się z licznikiem. Możemy również pobrać sumę kwadratów a także anuluje. Całka, z jaką mamy teraz, jest (po rozszerzeniu kwadratu):1(2πσe2)52πσp2exp[12σe2i=211Yi2]

=exp[10μ2+α2i=110Yi22μi=211Yi2αi=211YiYi1+2μαi=110Yi2σe2μ22σp2α22σp2]exp[10μ2+α2i=110Yi22μi=211Yi2αi=211YiYi1+2μαi=110Yi2σe2μ22σp2α22σp2]dμdα

Teraz możemy użyć ogólnego wyniku z normalnego pliku pdf.

exp(az2+bzc)dz=πaexp(b24ac)
Wynika to z wypełnienia kwadratu na i zauważenia, że nie zależy od . Zauważ, że wewnętrzna całka nad ma tę postać z i i . Po wykonaniu tej całki okaże się, że pozostała całka naaz2+bzczμa=102σe2+12σp2b=i=211Yiαi=110Yiσe2c=α2i=110Yi22αi=211YiYi12σe2+α22σp2αma również tę postać, więc możesz ponownie użyć tej formuły, używając innej litery . Powinieneś być w stanie napisać swój późniejszy w postaci gdzie jest macierząa,b,c12π|V|12exp[12(μμ^,αα^)V1(μμ^,αα^)T]V2×2

Daj mi znać, jeśli potrzebujesz więcej wskazówek.

aktualizacja

(uwaga: poprawna formuła powinna wynosić zamiast )10μ2μ2

jeśli spojrzymy na kwadratową formę, którą napisaliście w aktualizacji, zauważymy, że istnieje współczynników ( ma znaczenia dla a posteriori, ponieważ zawsze możemy dodać dowolną stałą, która anuluje w mianowniku). Mamy też niewiadomych . Jest to zatem „dobrze postawiony” problem, o ile równania są liniowo niezależne. Jeśli rozwiniemy kwadratowy otrzymujemy:5L5μ^,α^,Q11,Q12=Q21,Q22(μμ^,αα^)Q(μμ^,αα^)t

Q11(μμ^)2+Q22(αα^)2+2Q12(μμ^)(αα^)
=Q11μ2+2Q21μα+Q22α2(2Q11μ^+2Q12α^)μ(2Q22α^+2Q12μ^)α+
+Q11μ^2+Q22α^2+2Q12μ^α^

Porównując współczynnik drugiego rzędu, otrzymujemy co mówi nam, jak wygląda (odwrotna) macierz kowariancji. Również dwie nieznacznie bardziej skomplikowane równania dla po podstawieniu do . Można je zapisać w postaci macierzy jako:A=Q11,B=2Q12,C=Q22α^,μ^Q

(2ABB2C)(μ^α^)=(JK)

Tak więc szacunki są podane przez:

(μ^α^)=(2ABB2C)1(JK)=14ACB2(BK2JCBJ2KA)

Pokazuje, że nie mamy unikalnych szacunków, chyba że . Teraz mamy: 4ACB2

A=102σe2+12σp2B=i=110Yiσe2C=i=110Yi22σe2+12σp2J=i=211Yiσe2K=i=211YiYi1σe2

Zauważ, że jeśli zdefiniujemy dla i przyjmiemy limit wówczas szacunki dla są podane przez zwykłe najmniejsze kwadraty oszacowanie i gdzie i . Tak więc szacunki tylne są średnią ważoną między szacunkami OLS a wcześniejszymi szacunkami .Xi=Yi1i=2,,11σp2μ,αα^=i=211(YiY¯)(XiX¯)i=211(XiX¯)2μ^=Y¯α^X¯Y¯=110i=211YiX¯=110i=211Xi=110i=110Yi(0,0)

prawdopodobieństwo prawdopodobieństwa
źródło
Nie jest to szczególnie pomocne, ponieważ wspomniałem konkretnie, że nie chodzi tu o mianownik. Mianownik jest tylko stałą normalizującą, co stanie się oczywiste po zredukowaniu licznika do postaci Gaussa. Więc sztuczki do obliczania całek w mianowniku są matematycznie naprawdę fajne, ale po prostu nie są potrzebne w mojej aplikacji. Jedynym problemem, z którym potrzebuję rozwiązania, jest manipulowanie licznikiem.
ely
Ta odpowiedź daje zarówno licznik, jak i mianownik. Licznik wykazuje prawidłowy wielomian drugiego stopnia w który prowadzi do normalnej postaci kwadratowej, co jest podkreślone przez prawdopodobieństwo logiczne. (α,μ)
Xi'an
@ems - obliczając stałą normalizującą zbudujesz wymaganą formę kwadratową. będzie zawierać warunki potrzebne do wypełnienia kwadratu
prawdopodobieństwo
Nie rozumiem, jak to daje ci kwadratową formę. Obliczyłem dwie całki w mianowniku, używając opublikowanej przez ciebie tożsamości całkowej Gaussa. W końcu mam po prostu ogromną, niechlujną stałą. Wydaje się, że nie ma wyraźnego sposobu na przyjęcie tej stałej i przekształcenie jej w coś, co jest wyznacznikiem mocy 1/2, itd. Nie wspominając, że nie rozumiem, jak to wszystko wyjaśnia, jak obliczyć nową „ mean vector ' .. O to prosiłem o pomoc w pierwotnym pytaniu. (μ^,α^)t
ely
Ogromne dzięki za szczegółowe dodanie. Popełniłem głupie błędy, próbując wykonać algebrę, aby obliczyć formę kwadratową. Twoje komentarze na temat relacji do estymatora OLS są bardzo interesujące i docenione. Myślę, że to przyspieszy mój kod, ponieważ będę mógł pobierać próbki z formy analitycznej, która ma wbudowane, zoptymalizowane metody. Mój pierwotny plan polegał na użyciu Metropolis-Hastings do pobierania próbek, ale było to bardzo powolne. Dzięki!
ely