Widziałem dwa rodzaje formuł logistycznych strat. Możemy łatwo pokazać, że są identyczne, jedyną różnicą jest definicja etykiety .
Formułowanie / notacja 1, :
gdzie , gdzie funkcja logistyczna odwzorowuje liczbę rzeczywistą na interwał 0,1.
Formulacja / notacja 2, :
Wybór notacji jest jak wybór języka, są plusy i minusy, aby użyć jednego lub drugiego. Jakie są zalety i wady tych dwóch notacji?
Próbuję odpowiedzieć na to pytanie, ponieważ wydaje się, że społeczność statystyczna lubi pierwszą notację, a społeczność informatyczna lubi drugą notację.
- Pierwszą notację można wyjaśnić terminem „prawdopodobieństwo”, ponieważ funkcja logistyczna przekształca liczbę rzeczywistą na interwał 0,1.
- Drugi zapis jest bardziej zwięzły i łatwiej go porównać z utratą zawiasu lub utratą 0-1.
Czy mam rację? Jakieś inne spostrzeżenia?
Odpowiedzi:
Krótka wersja
Długa wersja
Zaletą modelowania matematycznego jest to, że jest elastyczny. Są to rzeczywiście równoważne funkcje strat, ale wynikają z bardzo różnych podstawowych modeli danych.
Formuła 1
Pierwsza notacja pochodzi z modelu prawdopodobieństwa Bernoulliego dla , który jest konwencjonalnie zdefiniowany w { 0 , 1 } . W tym modelu, wynik / etykieta / klasa / prognozowania jest reprezentowany przez zmienną losową Y , który występuje po B e r n o, u l l I ( p ) dystrybucji. Dlatego jego prawdopodobieństwo wynosi: P ( Y = y | p ) = L ( p ; y ) = p yy {0,1} Y Bernoulli(p)
dla . Użycie 0 i 1 jako wartości wskaźnika pozwala nam zredukować funkcję częściową po prawej stronie do zwięzłego wyrażenia.p∈[0,1]
Jak już zauważyłeś, możesz połączyć z macierzą danych wejściowych x , pozwalając logit p = β T x . Stąd prosta manipulacja algebraiczna ujawnia, że log L ( p ; y ) jest taki sam jak pierwszy L ( y , β T x ) w twoim pytaniu (wskazówka: ( y - 1 ) = - ( 1 - y ) ). Minimalizując utratę logów w ciągu { 0 ,Y x logitp=βTx logL(p;y) L(y,βTx) (y−1)=−(1−y) jest równoważne oszacowaniu maksymalnego prawdopodobieństwa modelu Bernoulliego.{0,1}
Sformułowanie to jest również szczególnym przypadkiem uogólnionego modelu liniowego , który jest sformułowany jako dla odwracalnej, różniczkowalnej funkcji g i rozkładu D w rodzinie wykładniczej .Y∼D(θ), g(Y)=βTx g D
Formuła 2
źródło
Myślę, że @ssdecontrol miał bardzo dobrą odpowiedź. Chcę tylko dodać kilka uwag do formuły 2 do mojego pytania.
Ludzie lubią to sformułowanie, ponieważ jest ono bardzo zwięzłe i usuwa „szczegóły interpretacji prawdopodobieństwa”.
źródło