Próbuję zrozumieć na głębszym poziomie wszechobecność prawdopodobieństwa logarytmicznego (a być może bardziej ogólnie log-prawdopodobieństwo) w statystyce i teorii prawdopodobieństwa. Log-prawdopodobieństwa pojawiają się wszędzie: zwykle pracujemy z prawdopodobieństwem log dla analizy (np. Dla maksymalizacji), informacja Fishera jest definiowana w kategoriach drugiej pochodnej prawdopodobieństwa log, entropia jest oczekiwanym prawdopodobieństwem log , Rozbieżność Kullback-Liebler wiąże się z prawdopodobieństwami logarytmicznymi, oczekiwana dywergencja jest oczekiwanym prawdopodobieństwem logarytmicznym itp.
Teraz doceniam wiele praktycznych i wygodnych powodów. Wiele popularnych i użytecznych plików PDF pochodzi z wykładniczych rodzin, co prowadzi do elegancko uproszczonych terminów po przekształceniu dziennika. Sumy są łatwiejsze do pracy niż produkty (szczególnie do różnicowania). Log-probs mają wielką przewagę zmiennoprzecinkową nad sondami prostymi. Przekształcanie logów w pdf często przekształca funkcję wklęsłą w funkcję wklęsłą. Ale jaki jest teoretyczny powód / uzasadnienie / motywacja dla log-probs?
Jako przykład mojego zakłopotania rozważ informacje Fisher'a (FI). Zwykłe wyjaśnienie dla intuicyjnego FI jest takie, że druga pochodna prawdopodobieństwa logarytmicznego mówi nam, jak „szczytowa” jest logarytmiczna podobność: wysoce szczytowa logarytmiczna wiarygodność oznacza, że MLE jest dobrze określony i jesteśmy względnie pewni jego wartości , podczas gdy prawie płaski logarytm podobny (niska krzywizna) oznacza, że wiele różnych wartości parametrów jest prawie tak dobrych (pod względem logarytmu) jak MLE, więc nasz MLE jest bardziej niepewny.
To wszystko jest dobre i dobre, ale czy nie jest bardziej naturalne znalezienie krzywizny samej funkcji prawdopodobieństwa (NIE przekształconej logarytmicznie)? Na pierwszy rzut oka nacisk na transformację logów wydaje się arbitralny i niewłaściwy. Na pewno bardziej interesuje nas krzywizna rzeczywistej funkcji prawdopodobieństwa. Jaka była motywacja Fishera do pracy z funkcją punktacji i Hessem prawdopodobieństwa logarytmu?
Czy odpowiedź jest prosta, że w końcu mamy asymptotycznie dobre wyniki z logarytmu prawdopodobieństwa? Np. Cramer-Rao i normalność MLE / tylnej. A może jest głębszy powód?
źródło
Odpowiedzi:
To naprawdę tylko wygoda dla logi wiarygodności, nic więcej.
Mam na myśli wygodę sum w porównaniu z produktami: , sumy łatwiej sobie poradzić pod wieloma względami, takimi jak różnicowanie lub integracja. Próbuję powiedzieć, że to nie jest wygoda tylko dla rodzin wykładniczych.ln( ∏jaxja) = ∑jalnxja
W przypadku próby losowej prawdopodobieństwo ma postać: , więc logarytmiczność podzieliłaby ten produkt na sumę, co jest łatwiejsze do manipulowania i analizy. Pomaga to, że wszystkim, na czym nam zależy, jest punkt maksimum, wartość na maksimum nie jest ważna, ponieważ możemy zastosować dowolną monotonną transformację, taką jak logarytm.L = ∏japja
Na intuicji krzywizny. To w zasadzie to samo, co druga pochodna logi wiarygodności.
Druga pochodna prawdopodobieństwa dziennika:
W punkcie maksimum pierwsza pochodna jest oczywiście zerowa, więc otrzymujemy: Stąd moja żart, że krzywizna prawdopodobieństwo i druga pochodna prawdopodobieństwa są tym samym.
Z drugiej strony, jeśli pierwsza pochodna prawdopodobieństwa jest mała nie tylko w punkcie maksimum, ale w okolicach maksimum, tj. Funkcja prawdopodobieństwa jest płaska, to otrzymujemy: Teraz płaskie prawdopodobieństwo nie jest dla nas dobre, ponieważ sprawia, że znalezienie maksimum jest trudniejsze numerycznie, a maksymalne prawdopodobieństwo nie jest lepsze niż inne punkty wokół niego, tj. Błędy oszacowania parametru są wysokie.
I znowu mamy nadal relację krzywizny i drugiej pochodnej. Dlaczego więc Fisher nie spojrzał na krzywiznę funkcji prawdopodobieństwa? Myślę, że to z tego samego powodu wygody. Łatwiej jest manipulować wiarygodnością logiczną ze względu na kwoty zamiast produktu. Mógł więc zbadać krzywiznę prawdopodobieństwa, analizując drugą pochodną prawdopodobieństwa logicznego. Chociaż równanie wygląda bardzo prosto dla krzywizny , w rzeczywistości bierzesz drugą pochodną produktu, która jest bardziej chaotyczna niż suma drugich pochodnych.κm a x= f′ ′( xm a x)
AKTUALIZACJA 2:
Oto demonstracja. Rysuję (całkowicie skompletowaną) funkcję wiarygodności, jej a) krzywiznę ib) drugą pochodną logarytmu. Po lewej stronie widać wąskie prawdopodobieństwo, a po prawej jest szerokie. Widzisz, jak w punkcie maksymalnego prawdopodobieństwa a) ib) zbiegają się, tak jak powinny. Co ważniejsze, możesz zbadać szerokość (lub płaskość) funkcji wiarygodności, badając drugą pochodną jej logarytmu prawdopodobieństwa. Jak pisałem wcześniej, ten drugi jest technicznie prostszy niż ten pierwszy do analizy.
Nic dziwnego, że głębsza druga pochodna logarytmiczności sygnalizuje bardziej płaską funkcję prawdopodobieństwa wokół jej maksimum, co nie jest pożądane, ponieważ powoduje większy błąd oszacowania parametru.
Kod MATLAB na wypadek, gdybyś chciał odtworzyć wykresy:
AKTUALIZACJA 3:
W powyższym kodzie podłączyłem dowolną funkcję w kształcie dzwonu do równania krzywizny, a następnie obliczyłem drugą pochodną logarytmu. Nie zmieniłem niczego, wartości są prosto z równań, aby pokazać równoważność, o której wspomniałem wcześniej.
Oto pierwszy artykuł na temat prawdopodobieństwa, który Fisher opublikował jeszcze na uniwersytecie, „O absolutnym kryterium dopasowania krzywych częstotliwości”, Messenger of Mathmatics, 41: 155-160 (1912)
Kiedy cały czas nalegałem, nie wspomina o „głębszych” powiązaniach prawdopodobieństwa dziennika z entropią i innymi fantazyjnymi tematami, nie podaje też swojego kryterium informacyjnego. Po prostu umieszcza równanie na 54, a następnie mówi o maksymalizacji prawdopodobieństw. Moim zdaniem pokazuje to, że używał logarytmu jako wygodnej metody analizy samych prawdopodobieństw wspólnych. Jest to szczególnie przydatne w ciągłym dopasowywaniu krzywych, dla którego podaje on oczywistą formułę na str.55: Powodzenia w analizie tego prawdopodobieństwa (lub prawdopodobieństwa zgodnie z Fisher) bez dziennika!log P = ∫ ∞ - ∞ log f d x PlogP.′= ∑n1logp
Jedną rzeczą, na którą należy zwrócić uwagę, czytając ten artykuł, zaczął od pracy przy szacowaniu maksymalnego prawdopodobieństwa i wykonał więcej pracy w ciągu kolejnych 10 lat, więc nawet o ile mi wiadomo, nawet nie wymyślono terminu MLE.
źródło
Dodatkowy punkt . Niektóre z powszechnie stosowanych rozkładów prawdopodobieństwa (w tym rozkład normalny, rozkład wykładniczy, rozkład Laplace'a, żeby wymienić tylko kilka) są wklęsłe . Oznacza to, że ich logarytm jest wklęsły. To sprawia, że maksymalizacja logarytmicznego prawdopodobieństwa jest znacznie łatwiejsza niż maksymalizowanie pierwotnego prawdopodobieństwa (co jest szczególnie przydatne przy metodach maksymalnego prawdopodobieństwa lub maksymalnego a-posteriori). Dla przykładu, użycie metody Newtona w celu maksymalizacji wielowymiarowego rozkładu Gaussa bezpośrednio może wymagać dużej liczby kroków, podczas gdy maksymalizacja paraboloidu (log wielowymiarowego rozkładu Gaussa) zajmuje dokładnie jeden krok.
źródło
Teoretyczne znaczenie logarytmu prawdopodobieństwa można zobaczyć z (przynajmniej) dwóch perspektyw: asymptotycznej teorii prawdopodobieństwa i teorii informacji.
Wcześniejsze (jak sądzę) to asymptotyczna teoria prawdopodobieństwa logarytmicznego. Myślę, że teoria informacji zaczęła się dobrze po tym, jak Fisher ustalił maksymalne prawdopodobieństwo na jej drodze do dominacji w XX wieku.
W teorii prawdopodobieństwa paraboliczne prawdopodobieństwo logarytmiczne zajmuje centralne miejsce. Lucien Le Cam odegrał ważną rolę w wyjaśnieniu znaczenia kwadratowego prawdopodobieństwa logarytmu w teorii asymptotycznej.
Kiedy masz kwadratowe prawdopodobieństwo logarytmiczne, krzywizna wokół MLE mówi nie tylko jakościowo, jak dokładnie możesz oszacować parametr, ale wiemy również, że błąd jest zwykle rozkładany z wariancją równą odwrotności krzywizny. Kiedy prawdopodobieństwo logarytmiczne jest w przybliżeniu kwadratowe, to mówimy, że wyniki te utrzymują się w przybliżeniu lub asymptotycznie.
Drugim powodem jest znaczenie prawdopodobieństwa log (lub log-prawdopodobieństwa) w teorii informacji , gdzie jest to główna wielkość używana do pomiaru zawartości informacji.
Zatem prawdopodobieństwo dziennika, oprócz tego, że jest użyteczną transformacją numeryczną, ma głębokie powiązania z wnioskowaniem i teorią informacji.
źródło
TLDR: O wiele łatwiej jest uzyskać sumy niż produkty, ponieważ operator pochodnych jest liniowy z sumowaniem, ale z produktem musisz wykonać regułę produktu. Jest to złożoność liniowa w porównaniu do złożoności wielomianowej wyższego rzędu
źródło