Dlaczego istnieją dwa różne formuły / notacje dotyczące utraty logistyki?

23

Widziałem dwa rodzaje formuł logistycznych strat. Możemy łatwo pokazać, że są identyczne, jedyną różnicą jest definicja etykiety y .

Formułowanie / notacja 1, y{0,+1} :

L(y,βTx)=ylog(p)(1y)log(1p)

gdzie , gdzie funkcja logistyczna odwzorowuje liczbę rzeczywistą na interwał 0,1.p=11+exp(βTx)βTx

Formulacja / notacja 2, :y{1,+1}

L(y,βTx)=log(1+exp(yβTx))

Wybór notacji jest jak wybór języka, są plusy i minusy, aby użyć jednego lub drugiego. Jakie są zalety i wady tych dwóch notacji?


Próbuję odpowiedzieć na to pytanie, ponieważ wydaje się, że społeczność statystyczna lubi pierwszą notację, a społeczność informatyczna lubi drugą notację.

  • Pierwszą notację można wyjaśnić terminem „prawdopodobieństwo”, ponieważ funkcja logistyczna przekształca liczbę rzeczywistą na interwał 0,1.βTx
  • Drugi zapis jest bardziej zwięzły i łatwiej go porównać z utratą zawiasu lub utratą 0-1.

Czy mam rację? Jakieś inne spostrzeżenia?

Haitao Du
źródło
4
Jestem pewien, że trzeba było to już zadawać wiele razy. Np. Stats.stackexchange.com/q/145147/5739
StasK
1
Dlaczego uważasz, że drugi zapis jest łatwiejszy do porównania z utratą zawiasów? Tylko dlatego, że jest zdefiniowany na zamiast { 0 , 1 } , czy coś innego? {1,1}{0,1}
shadowtalker
1
Trochę mi się podoba symetria pierwszej formy, ale część liniowa jest zakopana dość głęboko, więc może być trudno z nią pracować.
Matthew Drury
@ssdecontrol proszę sprawdzić ten rysunek, cs.cmu.edu/~yandongl/loss.html gdzie oś x to , a oś y to wartość strat. Taka definicja jest wygodna do porównania z utratą 01, utratą zawiasów itp.yβTx
Haitao Du

Odpowiedzi:

12

Krótka wersja

  • tak
  • tak

Długa wersja

Zaletą modelowania matematycznego jest to, że jest elastyczny. Są to rzeczywiście równoważne funkcje strat, ale wynikają z bardzo różnych podstawowych modeli danych.

Formuła 1

Pierwsza notacja pochodzi z modelu prawdopodobieństwa Bernoulliego dla , który jest konwencjonalnie zdefiniowany w { 0 , 1 } . W tym modelu, wynik / etykieta / klasa / prognozowania jest reprezentowany przez zmienną losową Y , który występuje po B e r n o, u l l I ( p ) dystrybucji. Dlatego jego prawdopodobieństwo wynosi: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

dla . Użycie 0 i 1 jako wartości wskaźnika pozwala nam zredukować funkcję częściową po prawej stronie do zwięzłego wyrażenia.p[0,1]

Jak już zauważyłeś, możesz połączyć z macierzą danych wejściowych x , pozwalając logit p = β T x . Stąd prosta manipulacja algebraiczna ujawnia, że log L ( p ; y ) jest taki sam jak pierwszy L ( y , β T x ) w twoim pytaniu (wskazówka: ( y - 1 ) = - ( 1 - y ) ). Minimalizując utratę logów w ciągu { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) jest równoważne oszacowaniu maksymalnego prawdopodobieństwa modelu Bernoulliego.{0,1}

Sformułowanie to jest również szczególnym przypadkiem uogólnionego modelu liniowego , który jest sformułowany jako dla odwracalnej, różniczkowalnej funkcji g i rozkładu D w rodzinie wykładniczej .YD(θ), g(Y)=βTxgD

Formuła 2

y{1,1}

max({0,1yβTx})+λβ2.

(y,β)+λβ2
λβL(y,βTx)
Shadowtalker
źródło
py(1p)1y1y
7

Myślę, że @ssdecontrol miał bardzo dobrą odpowiedź. Chcę tylko dodać kilka uwag do formuły 2 do mojego pytania.

L(y,y^)=log(1+exp(yy^))

Ludzie lubią to sformułowanie, ponieważ jest ono bardzo zwięzłe i usuwa „szczegóły interpretacji prawdopodobieństwa”.

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

enter image description here

yy^y^βTx

Haitao Du
źródło
I see what you mean about easy comparison
shadowtalker