Co oznaczają reszty w regresji logistycznej?

62

Odpowiadając na to pytanie, John Christie zasugerował, że dopasowanie modeli regresji logistycznej należy oceniać poprzez ocenę reszt. Znam sposób interpretowania reszt w OLS, są one w tej samej skali co DV i bardzo wyraźnie różnica między y przewidywana przez model y. Jednak w przypadku regresji logistycznej w przeszłości zwykle badałem szacunki dopasowania modelu, np. AIC, ponieważ nie byłem pewien, co będzie oznaczać wartość rezydualna dla regresji logistycznej. Po spojrzeniu na pomoc R w plikach trochę widzę, że w R istnieje pięć rodzajów reszt GLM dostępnych c("deviance", "pearson", "working","response", "partial"). Plik pomocy odnosi się do:

Nie mam kopii tego. Czy istnieje krótki sposób na opisanie sposobu interpretacji każdego z tych typów? Czy w kontekście logistycznym suma kwadratów reszt zapewni znaczącą miarę dopasowania modelu, czy może lepiej jest z Kryterium Informacyjnym?

russellpierce
źródło
2
Istnieją elementy tego pytania, na które nie ma odpowiedzi, np. Natura „gruszki”, „pracujące”, „odpowiedzi” i „częściowe” resztki, ale na razie zaakceptuję odpowiedź Thylacoleo.
russellpierce
Uważam, że binnedplotfunkcja w ramieniu pakietu R daje bardzo pomocny wykres reszt. Jest ładnie opisany na str. 97-101 Gelman i Hill 2007 .
conjugateprior
1
ni=1
Tak - niestety zwykle używam Bernoulli DV.
russellpierce
1
Zobacz także Omówienie glm $ residuals i resid (glm) na temat przepełnienia stosu .
gung - Przywróć Monikę

Odpowiedzi:

32

p=logit1(Xβ)X

logit1(Xβ)

Przeprowadzanie regresji logistycznej jest podobne do znajdowania wartości beta takiej, że suma kwadratów odchyleń odchylenia jest zminimalizowana.

Można to zilustrować fabułą, ale nie wiem, jak ją załadować.

Thylacoleo
źródło
1
Zarejestruj obrazy: skorzystaj z jednej z bezpłatnych witryn hostujących obrazy (szukaj w Google), prześlij działkę do tej witryny i połącz ją tutaj.
Poprawiłem błąd w mojej oryginalnej odpowiedzi. Najpierw napisałem p = logit (X beta). W rzeczywistości przewidywanym prawdopodobieństwem jest odwrotny logit kombinacji liniowej, p = inv-logit (X beta). W R jest to obliczane jako p <-plogit (X beta), czyli p = exp (X beta) / (1 + exp (X * beta)).
Thylacoleo,
1
Z którego pakietu R pochodzi plogit? Nie było jasne, czy definiujesz to tutaj, czy otrzymujesz skądinąd.
Amyunimus
1
@Amunimus plogitjest w R (statystyki), nie wymaga pakietu (przynajmniej nie więcej)
russellpierce
7

Na resztkach Pearsona,

Reszta Pearsona jest różnicą między zaobserwowanymi i oszacowanymi prawdopodobieństwami podzielonymi przez dwumianowe odchylenie standardowe szacowanego prawdopodobieństwa. Dlatego ujednolicenie resztek. W przypadku dużych próbek znormalizowane pozostałości powinny mieć rozkład normalny.

Od Menard, Scott (2002). Zastosowana analiza regresji logistycznej, wydanie drugie. Thousand Oaks, Kalifornia: Sage Publications. Seria: Ilościowe zastosowania w naukach społecznych, nr 106. Wydanie pierwsze, 1995 r. Patrz rozdział 4.4

tosonb1
źródło
8
nini<5
5

Reszty robocze są resztkami w końcowej iteracji dowolnej iteracyjnie ważonej metody najmniejszych kwadratów . Uważam, że oznacza to resztki, gdy myślimy, że jest to ostatnia iteracja naszego uruchomienia modelu. Może to prowadzić do dyskusji, że prowadzenie modelu jest ćwiczeniem iteracyjnym.

ayush biyani
źródło