Badanie odporności regresji logistycznej na naruszenie liniowości logit

10

Przeprowadzam regresję logistyczną z wynikiem binarnym (start i start). Moja kombinacja predyktorów to zmienne ciągłe lub dychotomiczne.

Stosując podejście Box-Tidwell, jeden z moich ciągłych predyktorów potencjalnie narusza założenie liniowości logit. Ze statystyk dotyczących dobroci dopasowania nie wynika, że ​​dopasowanie jest problematyczne.

Następnie ponownie uruchomiłem model regresji, zastępując pierwotną zmienną ciągłą: po pierwsze transformacją pierwiastkową, a po drugie dychotomiczną wersją zmiennej.

Po kontroli wyników wydaje się, że poprawność dopasowania nieznacznie się poprawia, ale reszty stają się problematyczne. Oszacowania parametrów, błędy standardowe i pozostają względnie podobne. Interpretacja danych nie zmienia się pod względem mojej hipotezy we wszystkich 3 modelach.exp(β)

Dlatego pod względem użyteczności moich wyników i poczucia interpretacji danych właściwe wydaje się zgłoszenie modelu regresji przy użyciu oryginalnej zmiennej ciągłej.

Zastanawiam się nad tym:

  1. Kiedy regresja logistyczna jest odporna na potencjalne naruszenie liniowości założenia logit?
  2. Biorąc pod uwagę mój powyższy przykład, czy wydaje się akceptowalne włączenie oryginalnej zmiennej ciągłej do modelu?
  3. Czy istnieją jakieś odniesienia lub wskazówki dotyczące zalecania, gdy zadowalające jest zaakceptowanie, że model jest odporny na potencjalne naruszenie liniowości logit?
Krótka Elizabeth
źródło

Odpowiedzi:

16

Założenie liniowości jest tak często naruszane w regresji, że powinno się je nazywać raczej niespodzianką niż założeniem. Podobnie jak inne modele regresji, model logistyczny nie jest odporny na nieliniowość, gdy błędnie zakłada się liniowość. Zamiast wykrywać nieliniowość za pomocą testów resztkowych lub omnibusa dobroci dopasowania, lepiej jest zastosować testy bezpośrednie. Na przykład rozwiń predyktory ciągłe za pomocą splajnów regresji i wykonaj złożony test wszystkich nieliniowych warunków. Lepiej nadal nie testuj warunków i po prostu oczekuj nieliniowości. Podejście to jest znacznie lepsze niż wypróbowanie różnych transformacji o pojedynczym nachyleniu, takich jak pierwiastek kwadratowy, log itp., Ponieważ wnioskowanie statystyczne powstaje po takich analizach, które są niepoprawne, ponieważ nie mają wystarczająco dużych stopni licznika.

Oto przykład w R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests
Frank Harrell
źródło
Twoja odpowiedź ma fantastyczny sens - dziękuję! Czy możesz zasugerować składnię do użycia w SPSS? Niestety nie mam dostępu (ani umiejętności) do korzystania z R.
Krótka Elizabeth
1
Na pewno warto poświęcić czas na naukę języka R, a mam wiele materiałów informacyjnych związanych z modelowaniem logistycznym i pakietem rms. W SPSS byłoby to trudne.
Frank Harrell,
@FrankHarrell: f <- lrm(y ~ ...wiersz zawiera błąd object 'y' not found- czy możesz to naprawić?
arielf
1
To bardzo podstawowy błąd R, który nie jest unikalny dla mojego rmspakietu. Poświęć trochę czasu na poznanie R, zaczynając od obszernego materiału dostępnego dla podstawowej lmfunkcji regresji .
Frank Harrell
1
Przykłady wbudowane na stronach pomocy oprogramowania symulują takie dane, więc spójrz na cały przykład w kontekście. Czy require(rms)wtedy ?lrmnastępnieexamples(lrm)
Frank Harrell