Jestem raczej ewangelistyczny, jeśli chodzi o wykorzystanie współczynników prawdopodobieństwa do przedstawienia obiektywnych dowodów przemawiających za danym zjawiskiem. Jednak ostatnio dowiedziałem się, że czynnik Bayesa pełni podobną funkcję w kontekście metod bayesowskich (tj. Uprzedni subiektywny jest łączony z obiektywnym czynnikiem Bayesa, aby uzyskać obiektywnie zaktualizowany subiektywny stan przekonania). Próbuję teraz zrozumieć obliczeniowe i filozoficzne różnice między współczynnikiem prawdopodobieństwa a współczynnikiem Bayesa.
Na poziomie obliczeniowym rozumiem, że chociaż współczynnik prawdopodobieństwa jest zwykle obliczany przy użyciu prawdopodobieństw, które reprezentują maksymalne prawdopodobieństwo dla odpowiedniej parametryzacji każdego modelu (albo oszacowane przez walidację krzyżową lub ukarane zgodnie ze złożonością modelu za pomocą AIC), najwyraźniej czynnik Bayesa jakoś wykorzystuje prawdopodobieństwa, które reprezentują prawdopodobieństwo każdego modelu zintegrowanego w całej przestrzeni parametrów (tj. nie tylko w MLE). W jaki sposób zazwyczaj dokonuje się tej integracji? Czy naprawdę próbuje się po prostu obliczyć prawdopodobieństwo dla każdej z tysięcy (milionów?) Losowych próbek z przestrzeni parametrów, czy też istnieją metody analityczne do zintegrowania prawdopodobieństwa w przestrzeni parametrów? Ponadto, obliczając współczynnik Bayesa,
Jakie są również filozoficzne różnice między współczynnikiem prawdopodobieństwa a współczynnikiem Bayesa (nb. Nie pytam o filozoficzne różnice między współczynnikiem wiarygodności a metodami Bayesa w ogóle, ale czynnik Bayesa jako reprezentacja obiektywnych dowodów konkretnie). W jaki sposób można scharakteryzować znaczenie współczynnika Bayesa w porównaniu ze współczynnikiem prawdopodobieństwa?
źródło
Odpowiedzi:
Po pierwsze, każda sytuacja, w której rozważasz termin taki jak dla danych i modelu jest uważana za model prawdopodobieństwa . Często jest to chleb powszedni w każdej analizie statystycznej, częstej lub bayesowskiej, i jest to część, która ma sugerować, że twoja analiza jest dobrze dopasowana lub źle dopasowana. Tak więc czynniki Bayesa nie robią nic zasadniczo innego niż wskaźniki prawdopodobieństwa.P(D|M) D M
Ważne jest, aby odpowiednio ustawić czynniki Bayesa. Jeśli masz dwa modele, powiedzmy, i przekształcasz prawdopodobieństwa na szanse, czynniki Bayesa działają jak operator na podstawie wcześniejszych przekonań:
Prawdziwa różnica polega na tym, że współczynniki prawdopodobieństwa są tańsze do obliczenia i ogólnie łatwiejsze do określenia koncepcyjnego. Prawdopodobieństwo w MLE jest tylko oszacowaniem punktowym odpowiednio licznika i mianownika czynnika Bayesa. Podobnie jak w konstrukcjach najczęstszych, może być postrzegany jako szczególny przypadek analizy bayesowskiej z wymyślnym uprzednim, trudnym do zdobycia. Ale przede wszystkim powstało, ponieważ jest analitycznie wykonalne i łatwiejsze do obliczenia (w erze przed powstaniem przybliżonych bayesowskich podejść obliczeniowych).
Do rzeczy na temat obliczeń, tak: ocenisz różne całki prawdopodobieństwa w ustawieniu Bayesa za pomocą wielkoskalowej procedury Monte Carlo w prawie każdym praktycznym przypadku. Istnieją pewne wyspecjalizowane symulatory, takie jak GHK, które działają, jeśli przyjmie się pewne rozkłady, a jeśli przyjmie się te założenia, czasami można znaleźć problemy, które można rozwiązać, dla których istnieją w pełni analityczne czynniki Bayesa.
Ale nikt ich nie używa; nie ma powodu do tego. Dzięki zoptymalizowanym próbnikom Metropolis / Gibbs i innym metodom MCMC, całkowicie możliwe jest podejście do tych problemów w sposób całkowicie oparty na danych i obliczenie liczb całkowitych. W rzeczywistości często robi się to hierarchicznie i dodatkowo integruje wyniki w stosunku do meta-priorów związanych z mechanizmami gromadzenia danych, nieusuwalnymi projektami eksperymentalnymi itp.
Polecam książkę Analiza danych bayesowskich, aby uzyskać więcej na ten temat. Chociaż autor, Andrew Gelman, wydaje się nie przejmować zbytnio czynnikami Bayesa . Nawiasem mówiąc, zgadzam się z Gelmanem. Jeśli masz zamiar przejść Bayesian, wykorzystaj pełny tył. Wykonywanie wyboru modelu metodami bayesowskimi jest jak upośledzenie ich, ponieważ wybór modelu jest słabą i najczęściej bezużyteczną formą wnioskowania. Wolałbym znać rozkłady dotyczące wyborów modeli, gdybym mógł ... kogo obchodzi kwantyfikacja tego, że „model A jest lepszy niż model B” tego rodzaju stwierdzeń, kiedy nie musisz?
Jest to jedna z fajnych cech metod bayesowskich. Czynniki Bayesa automatycznie uwzględniają złożoność modelu w sensie technicznym. Możesz skonfigurować prosty scenariusz z dwoma modelami, i z założonymi złożonościami modeli odpowiednio i , odpowiednio z i wielkością próby .M1 M2 d1 d2 d1<d2 N
Zatem jeśli jest współczynnikiem Bayesa z w liczniku, przy założeniu, że jest prawdą, można udowodnić, że gdy , zbliża się w tempie zależnym od różnicy w złożoności modelu oraz że czynnik Bayesa faworyzuje prostszy model. Mówiąc dokładniej, możesz wykazać, że przy wszystkich powyższych założeniachB1,2 M1 M1 N→∞ B1,2 ∞
Znam to wyprowadzenie i dyskusję z książki Finite Mixture and Markov Switching Models autorstwa Sylvii Frühwirth-Schnatter, ale prawdopodobnie istnieją bardziej bezpośrednie relacje statystyczne, które bardziej zagłębiają się w epistemologię leżącą u jej podstaw.
Nie znam szczegółów wystarczająco dobrze, aby je tutaj podać, ale wierzę, że istnieją dość głębokie teoretyczne powiązania między tym a wyprowadzeniem AIC. Książka Teorii informacji autorstwa Covera i Thomasa przynajmniej to wskazywała.
Sekcja artykułu w Wikipedii na temat „Interpretacji” dobrze dyskutuje na ten temat (szczególnie wykres pokazujący skalę dowodów siły Jeffreysa).
Jak zwykle, nie ma zbyt wielu rzeczy filozoficznych poza podstawowymi różnicami między metodami bayesowskimi a metodami częstymi (które wydaje się, że już znasz).
Najważniejsze jest to, że wskaźnik prawdopodobieństwa nie jest spójny w sensie holenderskiej książki. Możesz wymyślić scenariusze, w których wnioskowanie o wyborze modelu na podstawie ilorazów prawdopodobieństwa doprowadzi do zaakceptowania przegranych zakładów. Metoda bayesowska jest spójna, ale działa na zasadzie przełożonej, która może być bardzo uboga i musi być wybrana subiektywnie. Kompromisy ... kompromisy ...
FWIW, myślę, że ten mocno sparametryzowany wybór modelu nie jest zbyt dobrym wnioskowaniem. Wolę metody bayesowskie i wolę organizować je bardziej hierarchicznie i chcę, aby wnioskowanie koncentrowało się na pełnym rozkładzie bocznym, jeśli jest to w ogóle wykonalne obliczeniowo. Myślę, że czynniki Bayesa mają pewne czyste właściwości matematyczne, ale nie jestem pod ich wrażeniem jako sam Bayesjanin. Kryją one bardzo przydatną część analizy bayesowskiej, która zmusza cię do radzenia sobie z przeorami na otwartej przestrzeni zamiast zamiatania ich pod dywan i pozwala wnioskować na pełnych ścianach bocznych.
źródło
Rozumiejąc różnicę między ilorazami prawdopodobieństwa a czynnikami Bayesa, warto rozważyć jedną kluczową cechę czynników Bayesa bardziej szczegółowo:
W jaki sposób czynniki Bayesa automatycznie uwzględniają złożoność modeli bazowych?
Jedną perspektywą na to pytanie jest rozważenie metod deterministycznego wnioskowania przybliżonego. Wariacyjna Bayes jest jedną z takich metod. Może to nie tylko radykalnie zmniejszyć złożoność obliczeniową aproksymacji stochastycznych (np. Próbkowanie MCMC). Wariacyjne Bayesa zapewniają również intuicyjne zrozumienie tego, co składa się na czynnik Bayesa.
Przypomnijmy najpierw, że czynnik Bayesa opiera się na dowodach modelu dwóch konkurujących modeli,
gdzie poszczególne dowody modelowe musiałyby być obliczone przez skomplikowaną całkę:
Ta całka jest potrzebna nie tylko do obliczenia współczynnika Bayesa; jest również potrzebny do wnioskowania na temat samych parametrów, tj. podczas obliczania .p(θ∣data,Mi)
Podejście Bayesa o stałym kształcie wariacyjne rozwiązuje ten problem, przyjmując założenie dystrybucyjne dotyczące warunkowych tylnych (np. Założenie Gaussa). Sprawia to, że trudny problem integracji staje się znacznie łatwiejszym problemem optymalizacji: problem znalezienia momentów o przybliżonej gęstości który jest maksymalnie podobny do prawdziwego, ale nieznanego, tylnego .q(θ) p(θ∣data,Mi)
Rachunek wariacyjny mówi nam, że można to osiągnąć poprzez maksymalizację tak zwanej ujemnej energii swobodnej , która jest bezpośrednio związana z dowodami modelu log:F
Z tego widać, że maksymalizacja ujemnej energii swobodnej zapewnia nam nie tylko przybliżone tylne . Ponieważ rozbieżność Kullbacka-Leiblera jest nieujemna, również stanowi dolną granicę dla samego dowodu modelu (log) .q(θ)≈p(θ∣data,Mi) F
Możemy teraz powrócić do pierwotnego pytania, w jaki sposób czynnik Bayesa automatycznie równoważy dobroć dopasowania i złożoność zaangażowanych modeli. Okazuje się, że ujemną swobodną energię można przepisać w następujący sposób:
Pierwszy termin to logarytmiczne prawdopodobieństwo danych spodziewanych w przybliżeniu z tyłu; reprezentuje dobroć dopasowania (lub dokładności ) modelu. Drugi termin to rozbieżność KL między przybliżeniem tylnym a poprzednim; reprezentuje złożoność modelu, przy założeniu, że prostszy model jest tym, który jest bardziej zgodny z naszymi wcześniejszymi przekonaniami, lub przy założeniu, że prostszy model nie musi być tak rozciągnięty, aby pomieścić dane.
Przybliżenie darmowej energii do dowodów modelu dziennika pokazuje, że dowód modelu zawiera kompromis między modelowaniem danych (tj. Dobrością dopasowania) a zachowaniem zgodności z naszą wcześniejszą (tj. Prostotą lub negatywną złożonością).
Współczynnik Bayesa (w przeciwieństwie do współczynnika prawdopodobieństwa) mówi zatem, który z dwóch konkurujących modeli lepiej zapewnia proste, ale dokładne wyjaśnienie danych.
źródło