Regresja logistyczna dla wieloklasowej

10

Mam model regresji logistycznej dla wieloklasowej, który podaje

P(Y=j|X(i))=exp(θjTX(i))1+m=1kexp(θmTX(i))

gdzie k to liczba klas theta to parametr do oszacowania j to j-ta klasa Xi to dane treningowe

Cóż, jedna rzecz, której nie dostałem, to dlaczego część mianownika znormalizowała model. Mam na myśli, że prawdopodobieństwo pozostanie między 0 a 1.

1+m=1kexp(θmTX(i))

Mam na myśli, że jestem przyzwyczajony do regresji logistycznej

P.(Y=1|X(ja))=1/(1+exp(-θT.X(ja)))

Właściwie jestem zdezorientowany w kwestii nominacji. W tym przypadku, ponieważ jest to funkcja sigmoidalna, nigdy nie pozwala, aby wartość była mniejsza niż 0 lub większa niż 1. Ale jestem zdezorientowany w przypadku wielu klas. Dlaczego tak jest

To jest moja referencja https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-F February/ 029738.html . Myślę, że powinno być normalizowanie

P.(Y=jot|X(ja))=exp(θjotT.X(ja))m=1kexp(θmT.X(ja))
użytkownik34790
źródło
2
Wskazówka: W regresji logistycznej istnieją domyślnie dwa prawdopodobieństwa, z którymi należy sobie poradzić: prawdopodobieństwo i prawdopodobieństwo Y = 0 . Prawdopodobieństwa te należy sumować do 1 . Y=1Y=01
whuber
1
Na podstawie niektórych innych postów wiesz, jak oznaczać równania. Równania tekstowe tutaj są trudne do odczytania, a (indeksy dolne?) Są mylące - czy możesz je oznaczyć ? L.ZAT.miX
Makro
2
Ponieważ zamieszczasz tutaj tak wiele pytań, zatrzymaj się i przeczytaj nasze FAQ dotyczące zadawania dobrych pytań. Przeczytaj pomoc dla Znaczniki X, dzięki czemu równania można odczytać. TEX
whuber
Zedytowałem równanie. @ Whuber Właściwie jestem zdezorientowany związany z regresją logistyczną wieloklasową, a nie binarną. Martwię się, dlaczego po dodaniu wszystkich elementów donominatora znormalizowałem prawdopodobieństwo
34790
@ user34790, kiedy dzielisz każdy termin przez sumę, wówczas indywidualne prawdopodobieństwa klas sumują się do 1. Czym jest przy okazji? X(ja)
Makro

Odpowiedzi:

13

Twoja formuła jest niepoprawna (górna granica sumy). W regresji logistycznej z klasami ( K > 2 ) w zasadzie tworzysz binarne modele regresji logistycznej K - 1 , w których wybierasz jedną klasę jako odniesienie lub oś przestawną. Zazwyczaj ostatnia klasa K jest wybierana jako punkt odniesienia. Zatem prawdopodobieństwo klasy odniesienia można obliczyć za pomocą P ( y i = K | x i ) = 1 - K - 1 k = 1 P ( y i = kK.K.>2)K.-1K.Ogólna postać prawdopodobieństwa to P ( y i = k | x i ) = exp ( θ T i x i )

P.(yja=K.|xja)=1-k=1K.-1P.(yja=k|xja).
PonieważK-taklasa jest twoją referencjąθK=(0,,0)T,a zatemK i=1exp(θ T i xi)=exp(0)+ K - 1 i=1exp(
P.(yja=k|xja)=exp(θjaT.xja)ja=1K.exp(θjaT.xja).
K.θK.=(0,,0)T.Na koniec otrzymujesz następującą formułę dla wszystkich k < K : P ( y i = k | x i ) = exp ( θ T i x i )
ja=1K.exp(θjaT.xja)=exp(0)+ja=1K.-1exp(θjaT.xja)=1+ja=1K.-1exp(θjaT.xja).
k<K.
P.(yja=k|xja)=exp(θjaT.xja)1+ja=1K.-1exp(θjaT.xja)
wrz
źródło
4
zauważ, że wybór klasy referencyjnej nie jest ważny, jeśli robisz to z najwyższym prawdopodobieństwem. Ale jeśli robisz karane maksymalne prawdopodobieństwo lub wnioskowanie bayesowskie, często może być bardziej użyteczne pozostawienie prawdopodobieństw nadmiernie sparametryzowanych i pozwolić karie wybrać sposób radzenia sobie z nadmierną parametryzacją. Wynika to z faktu, że większość funkcji karnych / priorów nie jest niezmienna w odniesieniu do wyboru klasy odniesienia
prawdopodobieństwo
jajak
4

kk-1exp(0)kθ=0

θ1X=b

exp(b)exp(0)+exp(b)=exp(0)exp(0)+exp(-b)=11+exp(-b)
W przypadku wielu klas wystarczy zastąpić mianownik w pierwszych dwóch wielkościach sumą ponad wykładniczymi predyktorami liniowymi.
sprzężonyprior
źródło