Dlaczego Bayesian posterior koncentruje się wokół minimalizatora dywergencji KL?

9

Rozważmy Bayesa posterior . Asymptotycznie, jego maksimum występuje przy oszacowaniu MLE , co tylko maksymalizuje prawdopodobieństwo .θXθ^argminθfθ(X)

Wszystkie te koncepcje - priory bayesowskie, maksymalizujące prawdopodobieństwo - brzmią bardzo pryncypialnie i wcale nie są arbitralne. W polu widzenia nie ma logów.

Jednak MLE minimalizuje rozbieżność KL między rozkładem rzeczywistym i , tzn. Minimalizujef~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah - skąd pochodzą te dzienniki? Dlaczego w szczególności dywergencja KL?

Dlaczego na przykład minimalizowanie różnych rozbieżności nie odpowiada nadrzędnym i zmotywowanym koncepcjom bayesowskich posteriorów i maksymalizacji prawdopodobieństwa powyżej?

Wydaje się, że w tym kontekście jest coś specjalnego w dywergencji KL i / lub logach. Oczywiście możemy podnieść ręce w powietrze i powiedzieć, że taka jest matematyka. Ale podejrzewam, że może być głębsza intuicja lub powiązania do odkrycia.

Yatharth Agarwal
źródło
Możesz znaleźć kilka pomysłów tutaj: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
@kjetilbhalvorsen Poprzedni tytuł brzmiał jak duplikat; Przepraszam. Dokonałem edycji i powinno być jasne, dlaczego to pytanie nie jest duplikatem.
Yatharth Agarwal
Pozostałe pytania brzmią: „Co to jest dywergencja KL i dlaczego nie jest symetryczna?” Odpowiedzi wyjaśniają pojęcie rozbieżności i kilka informacji na temat KL. Natomiast pytanie to brzmi: „Dlaczego Bayesian posterior koncentruje się wokół minimalizatora dywergencji KL?” Samo wyjaśnienie, w jaki sposób rozbieżności nie muszą być symetryczne, oraz wyjaśnienie KL i stwierdzenie, że KL ma związek z MLE, nie odnosi się do sedna pytania: dlaczego spośród wielu możliwych rozbieżności KL w szczególności ma szczególne powiązanie z bayesowskim a posteriori. Czy to ma sens?
Yatharth Agarwal
Tak, to ma sens, ale wciąż jest problem. Tylny zależy również od wcześniejszego, a jeśli to jest silne, tylny może mieć maksimum z dala od mle. Ale przeora nie ma w twoim pytaniu.
kjetil b halvorsen
@kjetilbhalversen Miałem na myśli asymptotycznie z coraz większą liczbą próbek IID i w (surowych) warunkach, w których przeor nie ma znaczenia asymptotycznie!
Yatharth Agarwal

Odpowiedzi:

5

Zastosowanie logarytmów w takich obliczeniach pochodzi z teorii informacji . W szczególnym przypadku rozbieżności KL miarę można interpretować jako informację względną dwóch rozkładów:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

gdzie jest entropia z i jest przekrój entropia i . Entropię można traktować jako mierniki średniego tempa produkowanego przez gęstość (myśl, że entropia krzyżowa jest nieco bardziej skomplikowana). Minimalizowanie rozbieżności KL dla stałej wartości (jak we wspomnianym problemie) jest równoważne z minimalizowaniem entropii krzyżowej, dlatego optymalizację tę można interpretować teoretycznie.H(f~)f~H(f~,fθ)f~fθf~

Nie jestem w stanie podać dobrego opisu teorii informacji i właściwości miar informacji w krótkim poście. Poleciłbym jednak przyjrzeć się tej dziedzinie, ponieważ ma ona ścisłe powiązania ze statystykami. Wiele miar statystycznych obejmujących całki i sumy w logarytmach gęstości to proste kombinacje standardowych miar informacji stosowanych w teorii miar, w takich przypadkach można je interpretować w kategoriach podstawowych poziomów informacji w różnych gęstościach itp.

Ben - Przywróć Monikę
źródło
Zagadnienie teorii informacji brzmi obiecująco! Dzięki za wskazanie mi tego.
Yatharth Agarwal
Oczywiście nie możesz wyjaśnić całego pola matematycznego we wpisie StackExchange, ale czy masz jakieś odniesienia do nich, gdy pojawia się dziennik?
Yatharth Agarwal
Wydaje mi się, że kryje się w tym tak głęboka intuicja, dlaczego, powiedzmy, e jest w równaniu Eulera i że czai się tutaj podobna intuicja. Może gdzieś jakiś produkt powoduje powstanie logarytmu naturalnego. Nie jestem pewny.
Yatharth Agarwal
@ Yatharth logarytm powstaje tutaj ze względu na jego centralną rolę w definicji entropii Shannona. Jeśli chodzi o „dlaczego” logarytm jest odpowiedni dla miary informacji, w przeciwieństwie do innej funkcji, spójrz na twierdzenie 2 w „Matematycznej teorii komunikacji” Shannona. Również „Teoria informacji i mechanika statystyczna” Jayne'a to miłe wprowadzenie.
Nate Pope