Dlaczego minimalizujemy prawdopodobieństwo ujemne, jeśli jest ono równoważne z maksymalizacją prawdopodobieństwa?

47

To pytanie zastanawiało mnie od dawna. Rozumiem użycie „logu” w celu maksymalizacji prawdopodobieństwa, więc nie pytam o „log”.

Moje pytanie brzmi: skoro maksymalizacja prawdopodobieństwa dziennika jest równoważna z minimalizacją „negatywnego prawdopodobieństwa dziennika” (NLL), dlaczego wymyśliliśmy tę NLL? Dlaczego nie wykorzystujemy „pozytywnego prawdopodobieństwa” przez cały czas? W jakich okolicznościach preferowane jest NLL?

Znalazłem tutaj małe wyjaśnienie. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ i wydaje się wyjaśniać oczywistą równoważność dogłębnie, ale nie rozwiązuje mojego zamieszania.

Wszelkie wyjaśnienia będą mile widziane.

Tony
źródło
3
Maksymalne prawdopodobieństwo dziennika nie jest funkcją utraty, ale jego ujemna wartość jest wyjaśniona w artykule w ostatniej sekcji. To kwestia spójności. Załóżmy, że masz inteligentny system uczenia się próbujący różne funkcje utraty dla danego problemu. Zestaw funkcji strat będzie zawierał straty kwadratowe, straty bezwzględne itp. Aby uzyskać spójną listę, dodasz prawdopodobieństwo dziennika ujemnego do listy funkcji strat.
Cagdas Ozgenc

Odpowiedzi:

41

To jest alternatywna odpowiedź: optymalizatory w pakietach statystycznych zwykle działają, minimalizując wynik funkcji. Jeśli funkcja podaje najpierw wartość prawdopodobieństwa, wygodniej jest użyć logarytmu, aby zmniejszyć wartość zwracaną przez funkcję prawdopodobieństwa. Następnie, ponieważ funkcja prawdopodobieństwa i prawdopodobieństwa dziennika mają ten sam trend wzrostu lub spadku, możesz zminimalizować ujemne prawdopodobieństwo dziennika, aby faktycznie wykonać oszacowanie maksymalnego prawdopodobieństwa testowanej funkcji. Zobacz na przykład nlminbfunkcję w R. tutaj

Nicola Dinapoli
źródło
10
Powiedziałbym, że wykracza to nawet poza optymalizatory i jest zakorzenione w konwencjach teorii optymalizacji. Wydaje się, że minimalizacja jest często uważana za domyślną optymalizację. Weźmy na przykład nazwę „optymalizacja wypukła”, która idzie w parze z minimalizacją, ale równie łatwo można ją nazwać „optymalizacja wklęsła”.
Bitowe
48

Optymalizatory zwykle minimalizują funkcję, dlatego używamy ujemnego prawdopodobieństwa log jako minimalizacji, która jest równoważna maksymalizacji prawdopodobieństwa log lub samego prawdopodobieństwa.

Dla kompletności wspomnę, że logarytm jest funkcją monotoniczną, więc optymalizacja funkcji jest taka sama jak optymalizacja jej logarytmu. Wykonanie transformacji logarytmicznej funkcji prawdopodobieństwa ułatwia obsługę (mnożenie staje się sumą), a także jest bardziej stabilna numerycznie. Jest tak, ponieważ wielkość prawdopodobieństw może być bardzo mała. Wykonanie transformacji logarytmicznej przekształca te małe liczby na większe wartości ujemne, które maszyna o skończonej precyzji lepiej sobie radzi.

Luca
źródło
4
Jako przykład często napotykam w mojej pracy prawdopodobieństwo dziennika rzędu -40 000. W tym systemie liczbowo niemożliwa jest praca z samym prawdopodobieństwem.
Will Vousden,
3

Tutaj minimalizacja oznacza zmniejszenie odległości dwóch rozkładów do najniższego: docelowego rozkładu Bernoulliego i wygenerowanego rozkładu wyników. Odległość dwóch rozkładów mierzymy za pomocą dywergencji Kullbacka-Leiblera (zwanej również entropią względną), a ze względu na teorię dużej liczby minimalizacja dywergencji KL jest równoznaczna z minimalizacją entropii krzyżowej (entropia krzyżowa wieloklasowa, patrz tutaj lub klasyfikacja binarna, patrz tutaj i tutaj ).

A zatem

maksymalizacja prawdopodobieństwa dziennika jest równoważna z minimalizacją „ujemnego prawdopodobieństwa dziennika”

można przetłumaczyć na

Maksymalne prawdopodobieństwo dziennika jest równoważne minimalizowaniu odległości między dwoma rozkładami, a zatem jest równoważne minimalizowaniu rozbieżności KL, a następnie entropii krzyżowej.

Myślę, że stało się to dość intuicyjne.

Lerner Zhang
źródło
1

Odpowiedź jest prostsza niż myślisz. Zgodnie z konwencją funkcję celu optymalizacji nazywamy „funkcją kosztu” lub „funkcją straty”, dlatego chcemy je zminimalizować, a nie zmaksymalizować, dlatego powstaje prawdopodobieństwo logarytmu ujemnego, a nie prawdopodobieństwo dodatnie słowo. Technicznie oba są poprawne. Nawiasem mówiąc, jeśli chcemy coś zmaksymalizować, zwykle nazywamy to „funkcją użytkową”, a zatem celem jest ich maksymalizacja.

Yang
źródło