Czy istnieje założenie dotyczące zmiennej odpowiedzi regresji logistycznej?
Załóżmy na przykład, że mamy punktów danych. Wygląda na to, że odpowiedź pochodzi z dystrybucji Bernoulliego z . Dlatego powinniśmy mieć rozkładów Bernoulliego z innym parametrem .
Są więc „niezależni”, ale nie są „identyczni”.
Czy mam rację?
PS. Nauczyłem się regresji logistycznej z literatury „uczenie maszynowe”, w której optymalizujemy funkcję celu i sprawdzamy, czy sprawdza się w testowaniu danych, nie mówiąc zbyt wiele o założeniach.
Moje pytanie zaczęło się od tego postu Zrozum funkcję połączenia w uogólnionym modelu liniowym, w którym staram się dowiedzieć więcej na temat założeń statystycznych.
regression
logistic
assumptions
iid
Haitao Du
źródło
źródło
Odpowiedzi:
Z poprzedniego pytania dowiedziałeś się, że GLM jest opisany w kategoriach rozkładu prawdopodobieństwa, predyktora liniowego i funkcji oraz jest opisany jakoη g
gdzieg jest funkcją łącza logit i zakłada się, że podąża za rozkładem BernoulliegoY
każdy następujący rozkład zero-jedynkowy z jego własnym średniej że jest uzależniona od . Jesteśmy nie przy założeniu, że każda pochodzi z tego samego rozkładu, przy takiej samej średniej (będzie to punkt przecięcia tylko modelu ), ale wszystkie mają różne sposoby. Zakładamy, że są niezależne , tzn. Nie musimy się martwić o takie rzeczy, jak autokorelacja między kolejnymi wartościami itp.Yi μi X Yi Yi=g−1(μ) Yi Yi
Założenie iid jest związane z błędami w regresji liniowej (tj. GLM Gaussa), gdzie znajduje się model
gdzie , tak, że nie IID hałasu wokół . Dlatego są zainteresowani diagnostyką resztek i zwracają uwagę na resztki w porównaniu z dopasowanym polem . Teraz, w przypadku regresji logistycznej GLM, nie jest to takie proste, ponieważ nie istnieje addytywny termin szumowy jak w modelu Gaussa (patrz tutaj , tutaj i tutaj ). Nadal chcemy, aby reszty były „losowe” wokół zera i nie chcemy widzieć w nich żadnych trendów, ponieważ sugerowałyby, że istnieją pewne efekty, które nie są uwzględnione w modelu, ale nie zakładamy, że są normalny i / lubεi∼N(0,σ2) μi iid . Zobacz także: Znaczenie założenia iid w statystycznym wątku uczenia się .
Na marginesie zauważmy, że możemy nawet odrzucić założenie, że każdy pochodzi z tego samego rodzaju dystrybucji. Istnieją modele (inne niż GLM), które zakładają, że różne mogą mieć różne rozkłady o różnych parametrach, tzn. Że dane pochodzą z mieszanki różnych rozkładów . W takim przypadku przyjęlibyśmy również, że wartości są niezależne , ponieważ wartości zależne pochodzące z różnych rozkładów o różnych parametrach (tj. Typowych danych rzeczywistych) są czymś, co w większości przypadków byłoby zbyt skomplikowane do modelowania (często niemożliwe).Yi Yi Yi
źródło
Jak już wspomniano, chociaż często rozważamy przypadek błędów iid w regresji liniowej, nie ma to bezpośredniego odpowiednika w większości uogólnionych modeli liniowych (w tym regresji logistycznej). W regresji logistycznej zwykle stosujemy założenie niezależności wyników, z których wszystkie mają bardzo ścisły związek (tj. Liniowy wpływ na prawdopodobieństwa logarytmiczne). Ale skutkują to losowymi zmiennymi, które nie są identyczne, ani nie można ich rozkładać na stały składnik plus błąd ididalny, jak ma to miejsce w przypadku regresji liniowej.
Jeśli naprawdę chcesz pokazać, że odpowiedzi mają jakąś relację iid, to idź za mną do następnego akapitu. Po prostu wiedz, że ten pomysł jest trochę na uboczu; możesz nie otrzymać pełnego uznania za tę odpowiedź w finale, jeśli profesorowi brakuje cierpliwości.
źródło