Związek między statystykami bayesowskimi a modelowaniem generatywnym

15

Czy ktoś może skierować mnie do dobrego źródła, które wyjaśnia związek między statystykami bayesowskimi a technikami modelowania generatywnego? Dlaczego zwykle używamy modeli generatywnych z technikami bayesowskimi?

Dlaczego korzystanie ze statystyk bayesowskich jest szczególnie atrakcyjne przy braku kompletnych danych, jeśli w ogóle?

Zauważ, że pochodzę z bardziej zorientowanego na uczenie maszynowe widoku i jestem zainteresowany przeczytaniem więcej na ten temat w społeczności statystyk.

Wszelkie dobre referencje omawiające te kwestie byłyby bardzo mile widziane. Dzięki.

Bayesian
źródło
Badałem podstawową różnicę między adaptacyjnymi i generatywnymi sposobami transformacji. Wydaje się, że Bayesian nadaje się jako model statystyczny do badania adaptacyjnego, ale nie generatywnego. Trzeba dojść do tego wniosku bardziej pewnie.
1
Cześć Srinidhi, witam na stronie. To jest strona pytań i odpowiedzi. Czy mógłbyś przeformułować swój komentarz w pytanie? Ponadto, im bardziej szczegółowe jest pytanie, tym bardziej prawdopodobne jest uzyskanie użytecznej odpowiedzi.
naught101 16.10.12

Odpowiedzi:

12

W uczeniu maszynowym model pełnego prawdopodobieństwa p (x, y) nazywany jest generatywnym, ponieważ można go użyć do generowania danych, podczas gdy model warunkowy p (y | x) jest nazywany dyskryminacyjnym, ponieważ nie określa modelu prawdopodobieństwa dla p (x ) i może wygenerować y tylko dla danego x. Oba można oszacować w sposób bayesowski.

Oszacowanie Bayesa polega na określeniu pełnego modelu prawdopodobieństwa i przeprowadzeniu wnioskowania zależnego od modelu i danych. To sprawia, że ​​wiele modeli bayesowskich ma charakter generatywny. Jednak dla bayesowskiego ważne rozróżnienie nie dotyczy jedynie sposobu generowania danych, ale więcej informacji na temat tego, co jest potrzebne do uzyskania tylnego rozkładu nieznanych interesujących parametrów.

Model dyskryminacyjny p (y | x) jest częścią większego modelu, w którym p (y, x) = p (y | x) p (x). W wielu przypadkach p (x) nie ma znaczenia dla tylnego rozkładu parametrów w modelu p (y | x). W szczególności, jeśli parametry p (x) różnią się od p (y | x), a priory są niezależne, wówczas model p (x) nie zawiera informacji o nieznanych parametrach modelu warunkowego p (y | x), więc Bayesian nie musi go modelować.


Na bardziej intuicyjnym poziomie istnieje wyraźny związek między „generowaniem danych” a „obliczaniem rozkładu tylnego”. Rubin (1984) podaje następujący doskonały opis tego linku:

wprowadź opis zdjęcia tutaj


Statystyka bayesowska jest przydatna, biorąc pod uwagę brakujące dane, ponieważ zapewnia jednolity sposób eliminacji uciążliwych parametrów - integrację. Brakujące dane można traktować jako (wiele) uciążliwych parametrów. Alternatywne propozycje, takie jak wprowadzenie oczekiwanej wartości, zwykle będą słabo skuteczne, ponieważ rzadko możemy oszacować brakujące komórki danych z dużą dokładnością. Tutaj integracja jest lepsza niż maksymalizacja.

Modele dyskryminujące, takie jak p (y | x), również stają się problematyczne, jeśli x zawiera brakujące dane, ponieważ mamy tylko dane do oszacowania p (y | x_obs), ale najbardziej sensowne modele są zapisywane w odniesieniu do pełnych danych p (y | x). Jeśli masz model w pełni prawdopodobieństwa p (y, x) i jesteś bayesowski, nic ci nie jest, ponieważ możesz po prostu zintegrować brakujące dane, tak jak każdą inną nieznaną ilość.

Tristan
źródło
2

@Tristan: Mam nadzieję, że nie przeszkadza ci moja przeróbka odpowiedzi, ponieważ pracuję nad tym, aby uczynić ogólną kwestię tak przejrzystą, jak to możliwe.

Dla mnie najważniejszewgląd w statystyki ma na celu konceptualizację powtarzających się obserwacji, które są różne - jako generowane przez model generujący prawdopodobieństwo, taki jak Normalny (mu, sigma). Na początku 1800 r. Bawiły się modele generowania prawdopodobieństwa tylko z powodu błędów pomiaru z rolą parametrów, takich jak mu i sigma i dla nich zamęt. W podejściach częstokroć przyjmowano parametry jako stałe i nieznane, a zatem modele generujące prawdopodobieństwo obejmowały tylko możliwe obserwacje. W podejściach bayesowskich (z właściwymi priorytetami) istnieją modele generujące prawdopodobieństwo zarówno możliwych nieznanych parametrów, jak i możliwych obserwacji. Te połączone modele generowania prawdopodobieństwa kompleksowo uwzględniają wszystkie - mówiąc bardziej ogólnie - możliwe niewiadome (takie jak parametry) i znane (takie jak obserwacje). Tak jak w linku od Rubina, który podałeś,

W rzeczywistości Galton przedstawił to bardzo wyraźnie w dwustopniowym quincunxie pod koniec 1800 roku. Patrz rysunek 5> Stigler, Stephen M. 2010. Darwin, Galton i statystyki

oświecenie. Journal of Royal Statistics Society: Series A 173 (3): 469-482 . .

Jest to równoważne, ale być może bardziej przejrzyste

posterior = wcześniej (możliwe niewiadome | możliwe znane = znane)

niż później ~ poprzedni (możliwe nieznane) * p (możliwe znane = znane | możliwe nieznane)

Nie ma nic nowego dla brakujących wartości w tym pierwszym, ponieważ po prostu dodaje się możliwe niewiadome dla modelu prawdopodobieństwa generującego brakujące wartości i traktuje je jako jedną z możliwych znanych (tj. Brakowało trzeciej obserwacji).

Niedawno przybliżone obliczenia bayesowskie (ABC) poważnie potraktowały to konstruktywne dwustopniowe podejście symulacyjne, gdy nie można wypracować p (możliwe znane = znane | możliwe nieznane). Ale nawet jeśli można to rozwiązać i łatwo uzyskać tylną część z próbkowania MCMC (lub nawet gdy tylna część jest bezpośrednio dostępna ze względu na wcześniejszą koniugację), punkt Rubina na temat tej dwustopniowej konstrukcji próbkowania umożliwiającej łatwiejsze zrozumienie, nie powinien zostać przeoczony.

Na przykład jestem pewien, że uchwyciłoby to, co @Zen zrobił tutaj Bayesianie: niewolnicy funkcji prawdopodobieństwa? ponieważ należałoby wyciągnąć możliwe nieznane c z wcześniejszego (etap pierwszy), a następnie wyciągnąć możliwe znane (dane), biorąc pod uwagę, że c (etap 2), który nie byłby przypadkowym pokoleniem, ponieważ p (możliwe znane | c) nie było prawdopodobieństwa, z wyjątkiem jednego i tylko jednego c.

Z @Zen „Niestety nie jest to ogólnie poprawny opis modelu statystycznego. Problem polega na tym, że z definicjifaXjado(do) musi być gęstością prawdopodobieństwa dla prawie każdej możliwej wartoścido, co ogólnie jest wyraźnie fałszywe ”.

phaneron
źródło