Teoretyczna motywacja do wykorzystania prawdopodobieństwa logarytmu vs prawdopodobieństwa

18

Próbuję zrozumieć na głębszym poziomie wszechobecność prawdopodobieństwa logarytmicznego (a być może bardziej ogólnie log-prawdopodobieństwo) w statystyce i teorii prawdopodobieństwa. Log-prawdopodobieństwa pojawiają się wszędzie: zwykle pracujemy z prawdopodobieństwem log dla analizy (np. Dla maksymalizacji), informacja Fishera jest definiowana w kategoriach drugiej pochodnej prawdopodobieństwa log, entropia jest oczekiwanym prawdopodobieństwem log , Rozbieżność Kullback-Liebler wiąże się z prawdopodobieństwami logarytmicznymi, oczekiwana dywergencja jest oczekiwanym prawdopodobieństwem logarytmicznym itp.

Teraz doceniam wiele praktycznych i wygodnych powodów. Wiele popularnych i użytecznych plików PDF pochodzi z wykładniczych rodzin, co prowadzi do elegancko uproszczonych terminów po przekształceniu dziennika. Sumy są łatwiejsze do pracy niż produkty (szczególnie do różnicowania). Log-probs mają wielką przewagę zmiennoprzecinkową nad sondami prostymi. Przekształcanie logów w pdf często przekształca funkcję wklęsłą w funkcję wklęsłą. Ale jaki jest teoretyczny powód / uzasadnienie / motywacja dla log-probs?

Jako przykład mojego zakłopotania rozważ informacje Fisher'a (FI). Zwykłe wyjaśnienie dla intuicyjnego FI jest takie, że druga pochodna prawdopodobieństwa logarytmicznego mówi nam, jak „szczytowa” jest logarytmiczna podobność: wysoce szczytowa logarytmiczna wiarygodność oznacza, że MLE jest dobrze określony i jesteśmy względnie pewni jego wartości , podczas gdy prawie płaski logarytm podobny (niska krzywizna) oznacza, że wiele różnych wartości parametrów jest prawie tak dobrych (pod względem logarytmu) jak MLE, więc nasz MLE jest bardziej niepewny.

To wszystko jest dobre i dobre, ale czy nie jest bardziej naturalne znalezienie krzywizny samej funkcji prawdopodobieństwa (NIE przekształconej logarytmicznie)? Na pierwszy rzut oka nacisk na transformację logów wydaje się arbitralny i niewłaściwy. Na pewno bardziej interesuje nas krzywizna rzeczywistej funkcji prawdopodobieństwa. Jaka była motywacja Fishera do pracy z funkcją punktacji i Hessem prawdopodobieństwa logarytmu?

Czy odpowiedź jest prosta, że w końcu mamy asymptotycznie dobre wyniki z logarytmu prawdopodobieństwa? Np. Cramer-Rao i normalność MLE / tylnej. A może jest głębszy powód?

probability bayesian likelihood log-likelihood ratsalad
źródło

2

Poprosiłem podobne pytanie tutaj

Haitao du

13

To naprawdę tylko wygoda dla logi wiarygodności, nic więcej.

Mam na myśli wygodę sum w porównaniu z produktami: , sumy łatwiej sobie poradzić pod wieloma względami, takimi jak różnicowanie lub integracja. Próbuję powiedzieć, że to nie jest wygoda tylko dla rodzin wykładniczych. $\ln (\prod_i x_i) =\sum_i\ln x_i$

W przypadku próby losowej prawdopodobieństwo ma postać: , więc logarytmiczność podzieliłaby ten produkt na sumę, co jest łatwiejsze do manipulowania i analizy. Pomaga to, że wszystkim, na czym nam zależy, jest punkt maksimum, wartość na maksimum nie jest ważna, ponieważ możemy zastosować dowolną monotonną transformację, taką jak logarytm. $\mathrm{L}=\prod_ip_i$

Na intuicji krzywizny. To w zasadzie to samo, co druga pochodna logi wiarygodności.

$y=f(x)$

κ = \frac{f^{″} (x)}{(1 + f^{'} (x)^{2})^{3 / 2}}

$\kappa=\frac{f''(x)}{(1+f'(x)^2)^{3/2}}$

Druga pochodna prawdopodobieństwa dziennika:

A = (\ln f (x))^{″} = \frac{f^{″} (x)}{f (x)} - {(\frac{f^{'} (x)}{f (x)})}^{2}

$A=(\ln f(x))''=\frac{f''(x)}{f(x)}-\left(\frac{f'(x)}{f(x)}\right)^2$

W punkcie maksimum pierwsza pochodna jest oczywiście zerowa, więc otrzymujemy: Stąd moja żart, że krzywizna prawdopodobieństwo i druga pochodna prawdopodobieństwa są tym samym.

κ_{m a x} = f^{″} (x_{m a x}) = A f (x_{m a x})

$\kappa_{max}=f''(x_{max})=Af(x_{max})$

Z drugiej strony, jeśli pierwsza pochodna prawdopodobieństwa jest mała nie tylko w punkcie maksimum, ale w okolicach maksimum, tj. Funkcja prawdopodobieństwa jest płaska, to otrzymujemy: Teraz płaskie prawdopodobieństwo nie jest dla nas dobre, ponieważ sprawia, że znalezienie maksimum jest trudniejsze numerycznie, a maksymalne prawdopodobieństwo nie jest lepsze niż inne punkty wokół niego, tj. Błędy oszacowania parametru są wysokie.

κ \approx f^{″} (x) \approx A f (x)

$\kappa\approx f''(x)\approx A f(x)$

I znowu mamy nadal relację krzywizny i drugiej pochodnej. Dlaczego więc Fisher nie spojrzał na krzywiznę funkcji prawdopodobieństwa? Myślę, że to z tego samego powodu wygody. Łatwiej jest manipulować wiarygodnością logiczną ze względu na kwoty zamiast produktu. Mógł więc zbadać krzywiznę prawdopodobieństwa, analizując drugą pochodną prawdopodobieństwa logicznego. Chociaż równanie wygląda bardzo prosto dla krzywizny , w rzeczywistości bierzesz drugą pochodną produktu, która jest bardziej chaotyczna niż suma drugich pochodnych. $\kappa_{max}=f''(x_{max})$

AKTUALIZACJA 2:

Oto demonstracja. Rysuję (całkowicie skompletowaną) funkcję wiarygodności, jej a) krzywiznę ib) drugą pochodną logarytmu. Po lewej stronie widać wąskie prawdopodobieństwo, a po prawej jest szerokie. Widzisz, jak w punkcie maksymalnego prawdopodobieństwa a) ib) zbiegają się, tak jak powinny. Co ważniejsze, możesz zbadać szerokość (lub płaskość) funkcji wiarygodności, badając drugą pochodną jej logarytmu prawdopodobieństwa. Jak pisałem wcześniej, ten drugi jest technicznie prostszy niż ten pierwszy do analizy.

Nic dziwnego, że głębsza druga pochodna logarytmiczności sygnalizuje bardziej płaską funkcję prawdopodobieństwa wokół jej maksimum, co nie jest pożądane, ponieważ powoduje większy błąd oszacowania parametru.

Kod MATLAB na wypadek, gdybyś chciał odtworzyć wykresy:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

AKTUALIZACJA 3:

W powyższym kodzie podłączyłem dowolną funkcję w kształcie dzwonu do równania krzywizny, a następnie obliczyłem drugą pochodną logarytmu. Nie zmieniłem niczego, wartości są prosto z równań, aby pokazać równoważność, o której wspomniałem wcześniej.

Oto pierwszy artykuł na temat prawdopodobieństwa, który Fisher opublikował jeszcze na uniwersytecie, „O absolutnym kryterium dopasowania krzywych częstotliwości”, Messenger of Mathmatics, 41: 155-160 (1912)

Kiedy cały czas nalegałem, nie wspomina o „głębszych” powiązaniach prawdopodobieństwa dziennika z entropią i innymi fantazyjnymi tematami, nie podaje też swojego kryterium informacyjnego. Po prostu umieszcza równanie na 54, a następnie mówi o maksymalizacji prawdopodobieństw. Moim zdaniem pokazuje to, że używał logarytmu jako wygodnej metody analizy samych prawdopodobieństw wspólnych. Jest to szczególnie przydatne w ciągłym dopasowywaniu krzywych, dla którego podaje on oczywistą formułę na str.55: Powodzenia w analizie tego prawdopodobieństwa (lub prawdopodobieństwa zgodnie z Fisher) bez dziennika! $\log P'=\sum_1^n\log p$

\log P = \int_{- \infty}^{\infty} \log f d x

$\log P=\int_{-\infty}^\infty\log fdx$

P

$P$

Jedną rzeczą, na którą należy zwrócić uwagę, czytając ten artykuł, zaczął od pracy przy szacowaniu maksymalnego prawdopodobieństwa i wykonał więcej pracy w ciągu kolejnych 10 lat, więc nawet o ile mi wiadomo, nawet nie wymyślono terminu MLE.

Aksakal
źródło

5

Ostatnie zdanie (o krzywiźnie) sugeruje, że istnieje prawdopodobieństwo fundamentalne w prawdopodobieństwie kłody, a przyjmowanie kłód nie jest zwykłą „wygodą”. Wierzę, że dzieje się tu o wiele więcej niż na to pozwalasz.

whuber

2

Dyskusja na temat krzywizny nie wydaje się istotna, ponieważ nie odróżnia analizy prawdopodobieństwa dziennika od analizy samego prawdopodobieństwa. Wydaje się, że ta odpowiedź sprowadza się do „dzienników są wygodne”, ale w tej kwestii jest o wiele więcej, ponieważ inne odpowiedzi zaczynają sugerować.

whuber

@Aksakal OK, dziękuję, myślę, że teraz to widzę. Funkcja prawdopodobieństwa jest określona do dowolnej stałej multiplikatywnej. Dlatego wartość prawdopodobieństwa na maksimum, , jest również dowolna. Na przykład często stosuje się znormalizowaną jednostkę prawdopodobieństwa, gdzie . W takim przypadku drugie pochodne prawdopodobieństwa i logarytmu prawdopodobieństwa są maksymalnie równoważne.

f (x_{m a x})

$f(x_{max})$

f (x_{m a x}) = 1

$f(x_{max}) = 1$

ratsalad

Zatem wykorzystanie logarytmu prawdopodobieństwa do informacji Fishera najwyraźniej służy dwóm praktycznym celom: (1) logarytmom prawdopodobieństwa łatwiej się pracuje, i (2) naturalnie ignoruje arbitralny współczynnik skalowania. I daje tę samą odpowiedź, co druga pochodna prawdopodobieństwa prostego. Wydaje mi się to ważnym punktem, który nie był oczywisty i którego nigdy nie widziałem w żadnym tekście statystycznym. Przypuszczalnie był znany Fisher.

ratsalad

f (x_{m a x})^{″} = (\ln f (x))^{″} f (x_{m a x})

$f(x_{max})''= (\ln f(x))'' f(x_{max})$ i jeśli dowolną stałą multiplikatywną przyjmuje się jako

f (x_{m a x}) = 1

$f(x_{max}) = 1$

f (x_{m a x})^{″} = (\ln f (x))^{″}

$f(x_{max})''= (\ln f(x))''$

ratsalad

5

Dodatkowy punkt . Niektóre z powszechnie stosowanych rozkładów prawdopodobieństwa (w tym rozkład normalny, rozkład wykładniczy, rozkład Laplace'a, żeby wymienić tylko kilka) są wklęsłe . Oznacza to, że ich logarytm jest wklęsły. To sprawia, że maksymalizacja logarytmicznego prawdopodobieństwa jest znacznie łatwiejsza niż maksymalizowanie pierwotnego prawdopodobieństwa (co jest szczególnie przydatne przy metodach maksymalnego prawdopodobieństwa lub maksymalnego a-posteriori). Dla przykładu, użycie metody Newtona w celu maksymalizacji wielowymiarowego rozkładu Gaussa bezpośrednio może wymagać dużej liczby kroków, podczas gdy maksymalizacja paraboloidu (log wielowymiarowego rozkładu Gaussa) zajmuje dokładnie jeden krok.

Luca Citi
źródło

2

Nie tak szybko. Zobacz ćwiczenie 7.4 na s. 393-394

Mark L. Stone

To nie jest wklęsłe. Gaussian jest wklęsły logarytmicznie do swojego argumentu lub do parametru średniego, a nie do wariancji. Jeśli chcesz również określić skalę, możesz użyć rozkładu normalnej gamma, który jest również logarytmicznie wklęsły (używając precyzji zamiast wariancji).

Luca Citi,

2

Dokładnie to. Cała rozmowa o tym, jak kłody są wygodniejsze, jest przyjemna, ale wypukłość (lub wklęsłość, w zależności od perspektywy) jest tym, co naprawdę odróżnia prawdopodobieństwo kłody jako „poprawną” rzecz do pracy.

Meni Rosenfeld,

2

Zauważ, że wspominałem już o wklęsłości kłody w PO. Ale wciąż jest to tylko „wygoda”, nie ma tutaj teoretycznego uzasadnienia wklęsłości kłód, a w każdym razie prawdopodobieństwa kłód nie są w ogóle wklęsłe.

ratsalad

1

@ratsalad, tak, masz rację, to wygoda. Myślę, że log-prawdopodobieństwa to dodatkowy sposób spojrzenia na funkcję prawdopodobieństwa. Nie mogę powiedzieć na pewno, który z nich jest lepszy. Jeśli spojrzysz na [ en.wikipedia.org/wiki/… miara ), niektórzy skutecznie pracują nad prawdopodobieństwem logarytmicznym (np. Dywergencja KL, która jest faktycznie oczekiwaną wartością różnicy prawdopodobieństw logarytmicznych), niektórzy bezpośrednio nad prawdopodobieństwem ( np. odległość KS).

Luca Citi,

4

Teoretyczne znaczenie logarytmu prawdopodobieństwa można zobaczyć z (przynajmniej) dwóch perspektyw: asymptotycznej teorii prawdopodobieństwa i teorii informacji.

Wcześniejsze (jak sądzę) to asymptotyczna teoria prawdopodobieństwa logarytmicznego. Myślę, że teoria informacji zaczęła się dobrze po tym, jak Fisher ustalił maksymalne prawdopodobieństwo na jej drodze do dominacji w XX wieku.

W teorii prawdopodobieństwa paraboliczne prawdopodobieństwo logarytmiczne zajmuje centralne miejsce. Lucien Le Cam odegrał ważną rolę w wyjaśnieniu znaczenia kwadratowego prawdopodobieństwa logarytmu w teorii asymptotycznej.

Kiedy masz kwadratowe prawdopodobieństwo logarytmiczne, krzywizna wokół MLE mówi nie tylko jakościowo, jak dokładnie możesz oszacować parametr, ale wiemy również, że błąd jest zwykle rozkładany z wariancją równą odwrotności krzywizny. Kiedy prawdopodobieństwo logarytmiczne jest w przybliżeniu kwadratowe, to mówimy, że wyniki te utrzymują się w przybliżeniu lub asymptotycznie.

Drugim powodem jest znaczenie prawdopodobieństwa log (lub log-prawdopodobieństwa) w teorii informacji , gdzie jest to główna wielkość używana do pomiaru zawartości informacji.

$g$ $g$ $f(\theta)$ $f(\hat{\theta})$ $\hat{\theta}$

$\ln \hat{L}$

Zatem prawdopodobieństwo dziennika, oprócz tego, że jest użyteczną transformacją numeryczną, ma głębokie powiązania z wnioskowaniem i teorią informacji.

źródło

Twoje odniesienie do wykorzystania prawdopodobieństwa logarytmicznego w teorii informacji jest okrągłe. Dlaczego oni korzystać z dziennika? Prawdopodobnie z tego samego powodu, zwłaszcza jeśli weźmiesz pod uwagę, że teoria informacji jest stosunkowo nowszą dziedziną w porównaniu do statystyki.

Aksakal

@Aksakal tak i nie. Teoria informacji została częściowo oparta na mechanice statystycznej i entropii: en.wikipedia.org/wiki/Entropy . Boltzmann zdefiniował entropię układu za pomocą logu liczby mikrostatów. Dlaczego logi? Ponieważ sprawia, że entropia / informacja jest addytywna (jak wskazuje twoja odpowiedź)? Więc co? Na poziomie liczbowym liniowość / addytywność otwiera zastosowanie potężnych metod algebry liniowej.

1

@Aksakal jednak na bardziej podstawowym poziomie addytywność zamienia entropię / informację w coś w rodzaju miary ... podobnej do masy. Jeśli połączysz dwa statystycznie niezależne układy, entropia połączonego układu jest sumą entropii każdego układu. Oto ładny wyjaśnienie: physics.stackexchange.com/questions/240636/…

1

@Bey Termodynamiczna entropia statystyczna faktycznie wynika bezpośrednio z rozkładu mikrostatów Boltzmanna i klasycznej termoskopii makroskopowej (forma entropii mechanicznej nie była „wyborem”). Sam rozkład Boltzmanna jest konsekwencją dwóch przesłanek: (1) właściwości fizycznej, że energie są określone tylko do arbitralnej stałej addytywnej oraz (2) podstawowego założenia statystycznego, że wszystkie mikrostaty o tej samej energii mają takie samo prawdopodobieństwo. Zatem na najgłębszym poziomie entropia termiczna obejmuje log-probs, ponieważ energia jest addytywna i proporcjonalna do log-prob.

ratsalad

2

@ ratsalad dziękuję za rozwinięcie tego ... jak widać, wykraczanie poza proste „logi są łatwiejsze” wyjaśnienia prawdopodobieństwa logów mogą zabrać jedno całkiem daleko. Korzystam z logarytmu prawdopodobieństwa z powodów, które podaje Aksakal ... jednak twój OP poprosił o coś głębszego. Podałem dwa przykłady, które pokazują powiązania z innymi obszarami, które wpłynęły na statystyki i teorię prawdopodobieństwa. Myślę, że wyjaśnienia asymptotyczne są bardziej bezpośrednie, ale entropia i prawdopodobieństwo są powiązane w sposób, który sprawia, że prawdopodobieństwa logarytmiczne są przedmiotem, który nas interesuje, poza zwykłą liczbową wygodą.

0

TLDR: O wiele łatwiej jest uzyskać sumy niż produkty, ponieważ operator pochodnych jest liniowy z sumowaniem, ale z produktem musisz wykonać regułę produktu. Jest to złożoność liniowa w porównaniu do złożoności wielomianowej wyższego rzędu

Charlie Tian
źródło

3

To pytanie oznacza „wygodny i praktyczny”. Nie jest to jedyny, a nawet główny powód, dla którego analiza koncentruje się na prawdopodobieństwie dziennika. Zastanówmy się na przykład, jak wyglądałoby wyrażenie Informacji Rybackiej pod względem prawdopodobieństwa, a nie logarytmu.

whuber

tak, na pewno; Myślę, że kiedy powiedział „łatwiej” znaleźć go bezpośrednio, pomyślałem, że miał na myśli coś przeciwnego, ponieważ z pewnością łatwiej go znaleźć po zastosowaniu transformacji logów.

Charlie Tian,

Teoretyczna motywacja do wykorzystania prawdopodobieństwa logarytmu vs prawdopodobieństwa

Odpowiedzi: