Powiedzmy, że mamy zmienną zależną z kilkoma kategoriami i zestawem zmiennych niezależnych.
Jakie są zalety wielomianowej regresji logistycznej w porównaniu z zestawem binarnych regresji logistycznych (tj. Schemat jeden do reszty )? Przez zestaw binarnej regresji logistycznej rozumiem, że dla każdej kategorii budujemy osobny binarny model regresji logistycznej z celem = 1, gdy i 0 w przeciwnym razie.
logistic
categorical-data
multinomial
Tomek Tarczyński
źródło
źródło
Odpowiedzi:
Jeśli ma więcej niż dwie kategorie, twoje pytanie o „przewagę” jednej regresji nad drugą jest prawdopodobnie pozbawione sensu, jeśli zamierzasz porównać parametry modeli , ponieważ modele będą się zasadniczo różnić:Y
dla każdegoıbinarnego logistycznejregresji ilogP(i)P(not i)=logiti=linear combination i
dla każdegoıkategorii,stwardnienie logistycznejregresjiRjest wybranej kategorii odniesienia (I≠R).logP(i)P(r)=logiti=linear combination i r i≠r
Jeśli jednak Twoim celem jest jedynie przewidywanie prawdopodobieństwa każdej kategorii każde z tych podejść jest uzasadnione, chociaż mogą one dawać różne szacunki prawdopodobieństwa. Wzór na oszacowanie prawdopodobieństwa jest ogólny:i
, gdziei,j,…,rsą wszystkimi kategoriami , a jeślirwybrano jako referencyjny, jegoexp(logP′(i)=exp(logiti)exp(logiti)+exp(logitj)+⋯+exp(logitr) i,j,…,r r . Tak więc dla logiki binarnej ta sama formuła staje się P ′ ( i ) = e x p ( l o g i t i )exp(logit)=1 . Logistyka wielomianowa opiera się na (nie zawsze realistycznym) założeniuniezależności nieistotnych alternatyw,podczas gdy szereg binarnych prognoz logistycznych nie.P′(i)=exp(logiti)exp(logiti)+1
Osobnym tematem są techniczne różnice między wielomianowymi i binarnymi regresjami logistycznymi w przypadku, gdy jest dychotomiczny . Czy będą jakieś różnice w wynikach? Przez większość czasu przy braku zmiennych towarzyszących wyniki będą takie same, jednak istnieją różnice w algorytmach i opcjach wyjściowych. Pozwólcie, że zacytuję Pomoc SPSS na ten temat w SPSS:Y
źródło
Z powodu tytułu zakładam, że „zalety wielokrotnej regresji logistycznej” oznaczają „regresję wielomianową”. Często są zalety, gdy model jest dopasowany jednocześnie. Ta szczególna sytuacja została opisana w Agresti (Categorical Data Analysis, 2002) str. 273. Podsumowując (parafrazując Agresti) oczekujesz, że szacunki ze wspólnego modelu będą inne niż modelu warstwowego. Oddzielne modele logistyczne mają zwykle większe standardowe błędy, chociaż może nie być tak źle, gdy najczęstszym poziomem wyniku jest poziom odniesienia.
źródło