Jestem zainteresowany, aby oszacować gęstość ciągłej zmiennej losowej . Jednym ze sposobów na osiągnięcie tego, czego się nauczyłem, jest użycie estymacji gęstości jądra.
Ale teraz interesuje mnie podejście bayesowskie, zgodne z poniższymi wytycznymi. I początkowo przekonani, że następuje rozkład . Biorę odczytów . Czy istnieje jakieś podejście do aktualizacji na podstawie moich nowych odczytów?
Wiem, że brzmię, jakbym sam sobie zaprzeczał: jeśli wierzę wyłącznie w jako moją wcześniejszą dystrybucję, to żadne dane nie powinny mnie przekonać inaczej. Załóżmy jednak, że były a moje punkty danych były podobne . Widząc , oczywiście nie mogę trzymać się mojego wcześniejszego, ale jak mam go zaktualizować?
Aktualizacja: Na podstawie sugestii w komentarzach zacząłem przyglądać się procesowi Dirichleta. Pozwól mi użyć następujących notacji:
Po sformułowaniu mojego oryginalnego problemu w tym języku, mi się, że jestem zainteresowany następującymi : . Jak to zrobić?
W tym zestawie notatek (strona 2) autor zrobił przykład (program Polya Urn). Nie jestem pewien, czy jest to istotne.
Aktualizacja 2: Chciałbym również zapytać (po obejrzeniu notatek): jak ludzie wybierają do DP? Wygląda na przypadkowy wybór. Ponadto, w jaki sposób ludzie wybierają wcześniejsze dla DP? Czy powinienem użyć wcześniejszego for jako mojego wcześniejszego dla ?
źródło
Odpowiedzi:
Ponieważ chcesz zastosować podejście bayesowskie, musisz założyć wcześniejszą wiedzę na temat tego, co chcesz oszacować. Będzie to miało formę dystrybucji.
Problem polega na tym, że jest to teraz podział na dystrybucje. Nie stanowi to jednak problemu, jeśli założymy, że dystrybucje kandydujące pochodzą z jakiejś sparametryzowanej klasy dystrybucji.
Na przykład, jeśli chcesz założyć, że dane są rozkładem gaussowskim z nieznaną średnią, ale znaną wariancją, to wszystko, czego potrzebujesz, to wcześniejszy wynik niż średnia.
Estymacja MAP nieznanego parametru (nazwij go ) może przebiegać przy założeniu, że wszystkie obserwacje / punkty danych są warunkowo niezależne, biorąc pod uwagę nieznany parametr. Zatem oszacowanie MAP toθ
,θ^=argmaxθ(Pr[x1,x2,...,xn,θ])
gdzie
.Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]∏ni=1Pr[xi|θ]
Należy zauważyć, że istnieją szczególne kombinacje wcześniejszego prawdopodobieństwa i rozkładów kandydujących Pr [ x | θ ], które powodują łatwe (zamknięte formularze) aktualizacje w miarę odbierania większej liczby punktów danych.Pr[θ] Pr[x|θ]
źródło
Do celów oceny gęstości nie potrzebujesz tego, czego potrzebujesz
.θn+1|x1,…,xn
Wzór w notatkach odnosi się do predykcyjnego rozkładu procesu Dirichleta.θn+1|θ1,…,θn
Aby oszacować gęstość, musisz pobrać próbkę z rozkładu predykcyjnego
Próbki z powyższego rozkładu można wykonać metodami warunkowymi lub metodami marginalnymi. Metody warunkowe znajdują się w pracy Stephena Walkera [1]. Metody marginalne należy sprawdzić w pracy Radforda Neala [2].
Dla parametru konknetracji Mike West [3] proponuje metodę wnioskowania w procedurze MCMC, w tym pełny rozkład warunkowy dla α . Jeśli zdecydujesz się nie aktualizować stężenia α w procedurze MCMC, należy pamiętać, że jeśli wybierzesz dla niego dużą wartość, wówczas liczba różnych wartości uzyskanych z procesu Dirichleta będzie większa niż liczba różnych wartości, gdy zostanie użyta niewielka liczba dla α .α α α α
[1] SG, Walker (2006). Pobieranie próbek modelu mieszanki Dirichleta z plastrami. Komunikacja w statystyce (symulacja i obliczenia).
[2] RM, Neal (2000) Markov Chain Metod Monte Carlo dla modeli Dirichlet Process Mixture. Journal of Obliczeniowe i graficzne statystyki. Vol 9, nr 2, s. 249–265
[3] M., West (1992). Oszacowanie hiperparametrów w modelach mieszanin procesowych Dirichleta. Raport techniczny
źródło
Jest na to coś precyzyjnego. To właściwie główna idea wnioskowania bayesowskiego.
źródło