Czytam internetowy dokument wykrywający punkt wymiany w Bayesian przez Adamsa i MacKaya ( link ).
Autorzy zaczynają od napisania krańcowego rozkładu predykcyjnego: gdzie
- jest obserwacją w czasie ;
- oznacza zestaw obserwacji do czasu ;
- to bieżąca długość przebiegu (czas od ostatniego punktu zmiany, może wynosić 0); i
- to zestaw obserwacji związanych z uruchomieniem .
Równ. 1 jest formalnie poprawny (patrz odpowiedź poniżej autorstwa @JuhoKokkala), ale rozumiem, że jeśli chcesz faktycznie przewidzieć , musisz go rozwinąć w następujący sposób:
Moje rozumowanie jest takie, że może istnieć punkt wymiany w (przyszłym) czasie , ale tylna obejmuje tylko do .
Chodzi o to, że autorzy artykułu robią z Eq. 1 jak jest (patrz równania 3 i 11 w pracy), a nie 1b. Pozornie więc ignorują możliwość zmiany punktu w czasie gdy przewidują podstawie danych dostępnych w czasie . Na początku części 2 mówią en passant
Zakładamy, że możemy obliczyć rozkład predykcyjny [dla ] od danej długości przebiegu .
i być może jest to sztuczka. Ale ogólnie ten rozkład predykcyjny powinien wyglądać podobnie do równania. 1b; co nie jest tym, co robią (równ. 11).
Nie jestem więc pewien, czy rozumiem, co się dzieje. Być może z notacją dzieje się coś śmiesznego.
Odniesienie
- Adams, RP i MacKay, DJ (2007). Bayesian wykrywanie punktów wymiany w Internecie. nadruk arXiv arXiv: 0710.3742.
źródło
Odpowiedzi:
Zarówno (1), jak i (1b) są poprawne. OP ma rację, że (w tym modelu) może istnieć punkt wymiany nat+1 , i xt+1 zależy od tego, czy istnieje punkt wymiany. Nie oznacza to żadnych problemów z (1) jako możliwymi wartościamirt+1 są w pełni „objęte” przez P(xt+1∣rt,x1:t) . P(xt+1|rt,x1:t) oznacza rozkład warunkowy xt+1 uwarunkowane (rt,x1:t) . Ta warunkowa dystrybucja uśrednia dla „wszystkiego innego”, w tymrt+1 , pod warunkiem (rt,x1:t) . Tak jak można napisać, powiedzmy,P(xt+1000|xt) , który uwzględniałby wszystkie możliwe konfiguracje punktów wymiany, a także wartości xi występuje między t i t+1000 .
W pozostałej części najpierw wyprowadzam (1), a następnie (1b) na podstawie (1).
Wyprowadzenie (1)
Dla dowolnych zmiennych losowychA,B,C , mamy
Wyprowadzenie (1b)
Rozważmy rozkładP(xt+1∣rt,x(r)t) ponad możliwe wartości rt+1 :
Ponieważ zakłada się *, czy punkt zmiany występuje wt+1 (pomiędzy xt i xt+1 ) does not depend on the history of x , we have P(rt+1∣rt,x(r)t)=P(rt+1∣rt) . Furthermore, since rt+1 determines whether xt+1 belongs into the same run as xt , we have P(xt+1∣rt+1,rt,x(r)t)=P(xt+1∣rt+1,x(r)t) . Substituting these two simplifications into the factorization above, we get
* Remark on the model's conditional independence assumptions
Based on quickly browsing the paper, I would personally like the conditional independence properties to be more explicitly stated somewhere, but I suppose that the intention is thatr is Markovian and the x :s associated to different runs are independent (given the runs).
źródło