To pytanie zastanawiało mnie od dawna. Rozumiem użycie „logu” w celu maksymalizacji prawdopodobieństwa, więc nie pytam o „log”.
Moje pytanie brzmi: skoro maksymalizacja prawdopodobieństwa dziennika jest równoważna z minimalizacją „negatywnego prawdopodobieństwa dziennika” (NLL), dlaczego wymyśliliśmy tę NLL? Dlaczego nie wykorzystujemy „pozytywnego prawdopodobieństwa” przez cały czas? W jakich okolicznościach preferowane jest NLL?
Znalazłem tutaj małe wyjaśnienie. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ i wydaje się wyjaśniać oczywistą równoważność dogłębnie, ale nie rozwiązuje mojego zamieszania.
Wszelkie wyjaśnienia będą mile widziane.
Odpowiedzi:
To jest alternatywna odpowiedź: optymalizatory w pakietach statystycznych zwykle działają, minimalizując wynik funkcji. Jeśli funkcja podaje najpierw wartość prawdopodobieństwa, wygodniej jest użyć logarytmu, aby zmniejszyć wartość zwracaną przez funkcję prawdopodobieństwa. Następnie, ponieważ funkcja prawdopodobieństwa i prawdopodobieństwa dziennika mają ten sam trend wzrostu lub spadku, możesz zminimalizować ujemne prawdopodobieństwo dziennika, aby faktycznie wykonać oszacowanie maksymalnego prawdopodobieństwa testowanej funkcji. Zobacz na przykład
nlminb
funkcję w R. tutajźródło
Optymalizatory zwykle minimalizują funkcję, dlatego używamy ujemnego prawdopodobieństwa log jako minimalizacji, która jest równoważna maksymalizacji prawdopodobieństwa log lub samego prawdopodobieństwa.
Dla kompletności wspomnę, że logarytm jest funkcją monotoniczną, więc optymalizacja funkcji jest taka sama jak optymalizacja jej logarytmu. Wykonanie transformacji logarytmicznej funkcji prawdopodobieństwa ułatwia obsługę (mnożenie staje się sumą), a także jest bardziej stabilna numerycznie. Jest tak, ponieważ wielkość prawdopodobieństw może być bardzo mała. Wykonanie transformacji logarytmicznej przekształca te małe liczby na większe wartości ujemne, które maszyna o skończonej precyzji lepiej sobie radzi.
źródło
Tutaj minimalizacja oznacza zmniejszenie odległości dwóch rozkładów do najniższego: docelowego rozkładu Bernoulliego i wygenerowanego rozkładu wyników. Odległość dwóch rozkładów mierzymy za pomocą dywergencji Kullbacka-Leiblera (zwanej również entropią względną), a ze względu na teorię dużej liczby minimalizacja dywergencji KL jest równoznaczna z minimalizacją entropii krzyżowej (entropia krzyżowa wieloklasowa, patrz tutaj lub klasyfikacja binarna, patrz tutaj i tutaj ).
A zatem
można przetłumaczyć na
Maksymalne prawdopodobieństwo dziennika jest równoważne minimalizowaniu odległości między dwoma rozkładami, a zatem jest równoważne minimalizowaniu rozbieżności KL, a następnie entropii krzyżowej.
Myślę, że stało się to dość intuicyjne.
źródło
Odpowiedź jest prostsza niż myślisz. Zgodnie z konwencją funkcję celu optymalizacji nazywamy „funkcją kosztu” lub „funkcją straty”, dlatego chcemy je zminimalizować, a nie zmaksymalizować, dlatego powstaje prawdopodobieństwo logarytmu ujemnego, a nie prawdopodobieństwo dodatnie słowo. Technicznie oba są poprawne. Nawiasem mówiąc, jeśli chcemy coś zmaksymalizować, zwykle nazywamy to „funkcją użytkową”, a zatem celem jest ich maksymalizacja.
źródło