Czy istnieje założenie regresji logistycznej?

18

Czy istnieje założenie dotyczące zmiennej odpowiedzi regresji logistycznej?

Załóżmy na przykład, że mamy punktów danych. Wygląda na to, że odpowiedź pochodzi z dystrybucji Bernoulliego z . Dlatego powinniśmy mieć rozkładów Bernoulliego z innym parametrem .1000Yipi=logit(β0+β1xi)1000p

Są więc „niezależni”, ale nie są „identyczni”.

Czy mam rację?


PS. Nauczyłem się regresji logistycznej z literatury „uczenie maszynowe”, w której optymalizujemy funkcję celu i sprawdzamy, czy sprawdza się w testowaniu danych, nie mówiąc zbyt wiele o założeniach.

Moje pytanie zaczęło się od tego postu Zrozum funkcję połączenia w uogólnionym modelu liniowym, w którym staram się dowiedzieć więcej na temat założeń statystycznych.

Haitao Du
źródło
1
„Założenie” jest czymś, co może mieć twierdzenie. Regresja liniowa ma „założenie” błędów ididowych (to nie są „zakładane” jako ididowane w regresji liniowej! To błędy) w tym sensie, że twierdzenie Gaussa-Markowa ma to założenie. Czy jest jakieś twierdzenie, że ktoś ma umysł na regresję logistyczną? Jeśli nie, to nie ma „założeń”. y
ameba mówi Przywróć Monikę
7
@Amoeba, hxd ma rację, zauważając, że dystrybucje nie są identyczne: „iid” nie ma zastosowania. Jeśli używa się regresji logistycznej tylko do jej dopasowania, to (jak piszesz) być może potrzeba kilku założeń; ale gdy tylko korzysta z estymowaną macierz kowariancji współczynników lub życzeniami odstępach predykcji konstrukt lub (w tym zakresie, krzyż walidacja przewidywane wartości), a następnie , że wymaga probabilistycznych założenia. Zazwyczaj odpowiedzi są niezależne.
whuber
4
@amoeba, gdy chcesz wykonać wnioskowanie (testy hipotez, przedziały ufności itp.) zamiast po prostu obliczać oszacowania parametrów, zrobisz wiele założeń (niektóre bardziej krytyczne niż inne), aby móc uzyskać odpowiedni rozkład zerowy statystyki testowe lub niezbędne obliczenia dla przedziału o pożądanym zasięgu. Nawet procedury o względnie niskim założeniu wciąż mają założenia, a jeśli zależy nam na naszych wnioskach, zadbamy o to, czy mogą mieć coś w pobliżu swoich nominalnych właściwości.
Glen_b
1
@amoeba, lubię twierdzenie, które pokazuje asymptotyczną normalność MLE. Lubię też test współczynnika wiarygodności.
gammer
2
Ich rozkład krańcowy nie jest identyczny, chyba że wszystkie mają tę samą wartość predyktora, w którym to przypadku po prostu masz próby bernoulli IID. Ich rozkłady warunkowe (biorąc pod uwagę predyktor) są takie same, ale nie sądzę, że normalnie powiedziałbyś, że w tym przypadku są IID. Yi
gammer

Odpowiedzi:

11

Z poprzedniego pytania dowiedziałeś się, że GLM jest opisany w kategoriach rozkładu prawdopodobieństwa, predyktora liniowego i funkcji oraz jest opisany jakoηg

η=XβE(Y|X)=μ=g1(η)

gdzieg jest funkcją łącza logit i zakłada się, że podąża za rozkładem BernoulliegoY

YiB(μi)

każdy następujący rozkład zero-jedynkowy z jego własnym średniej że jest uzależniona od . Jesteśmy nie przy założeniu, że każda pochodzi z tego samego rozkładu, przy takiej samej średniej (będzie to punkt przecięcia tylko modelu ), ale wszystkie mają różne sposoby. Zakładamy, że są niezależne , tzn. Nie musimy się martwić o takie rzeczy, jak autokorelacja między kolejnymi wartościami itp.Yi μiXYiYi=g1(μ)YiYi

Założenie iid jest związane z błędami w regresji liniowej (tj. GLM Gaussa), gdzie znajduje się model

yi=β0+β1xi+εi=μi+εi

gdzie , tak, że nie IID hałasu wokół . Dlatego są zainteresowani diagnostyką resztek i zwracają uwagę na resztki w porównaniu z dopasowanym polem . Teraz, w przypadku regresji logistycznej GLM, nie jest to takie proste, ponieważ nie istnieje addytywny termin szumowy jak w modelu Gaussa (patrz tutaj , tutaj i tutaj ). Nadal chcemy, aby reszty były „losowe” wokół zera i nie chcemy widzieć w nich żadnych trendów, ponieważ sugerowałyby, że istnieją pewne efekty, które nie są uwzględnione w modelu, ale nie zakładamy, że są normalny i / lubεiN(0,σ2)μiiid . Zobacz także: Znaczenie założenia iid w statystycznym wątku uczenia się .

Na marginesie zauważmy, że możemy nawet odrzucić założenie, że każdy pochodzi z tego samego rodzaju dystrybucji. Istnieją modele (inne niż GLM), które zakładają, że różne mogą mieć różne rozkłady o różnych parametrach, tzn. Że dane pochodzą z mieszanki różnych rozkładów . W takim przypadku przyjęlibyśmy również, że wartości są niezależne , ponieważ wartości zależne pochodzące z różnych rozkładów o różnych parametrach (tj. Typowych danych rzeczywistych) są czymś, co w większości przypadków byłoby zbyt skomplikowane do modelowania (często niemożliwe).YiYiYi

Tim
źródło
6

Jak już wspomniano, chociaż często rozważamy przypadek błędów iid w regresji liniowej, nie ma to bezpośredniego odpowiednika w większości uogólnionych modeli liniowych (w tym regresji logistycznej). W regresji logistycznej zwykle stosujemy założenie niezależności wyników, z których wszystkie mają bardzo ścisły związek (tj. Liniowy wpływ na prawdopodobieństwa logarytmiczne). Ale skutkują to losowymi zmiennymi, które nie są identyczne, ani nie można ich rozkładać na stały składnik plus błąd ididalny, jak ma to miejsce w przypadku regresji liniowej.

Jeśli naprawdę chcesz pokazać, że odpowiedzi mają jakąś relację iid, to idź za mną do następnego akapitu. Po prostu wiedz, że ten pomysł jest trochę na uboczu; możesz nie otrzymać pełnego uznania za tę odpowiedź w finale, jeśli profesorowi brakuje cierpliwości.

XFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi

Cliff AB
źródło
1
qiYiB(pi)Yipiqi
@Tim: tak, druga część odpowiedzi jest bardziej interesującą notatką dodatkową niż zwięzłą odpowiedzią. Ale może to być przydatny sposób, aby na to spojrzeć; w końcu tak po prostu komputer symuluje dane z tych modeli!
Cliff AB