Testowanie nieliniowości w regresji logistycznej (lub innych formach regresji)

13

Jednym z założeń regresji logistycznej jest liniowość logitu. Po uruchomieniu modelu testuję nieliniowość za pomocą testu Box-Tidwell. Jeden z moich ciągłych predyktorów (X) dał wynik dodatni pod kątem nieliniowości. Co mam teraz zrobić?

Ponieważ jest to naruszenie założeń, muszę pozbyć się predyktora (X) lub dołączyć transformację nieliniową (X * X). Lub przekształcić zmienną w kategoryczną? Jeśli masz jakieś referencje, czy mógłbyś też wskazać mi to?

tosonb1
źródło

Odpowiedzi:

8

Sugerowałbym użycie ograniczonych sześciennych splajnów ( rcsw R zobacz przykłady użycia Hmisc i Design ) zamiast dodawania potęgi w twoim modelu. Takie podejście jest zalecane na przykład przez Franka Harrella, a jego ładna ilustracja znajduje się w jego materiałach informacyjnych (§ 2.5 i rozdz. 9) na temat strategii modelowania regresji (patrz strona internetowa towarzysząca ).X

Można porównać wyniki z testu Box-Tidwell przy użyciu boxTidwell()w samochodzie opakowaniu.

Przekształcanie predyktorów ciągłych w predyktory kategoryczne ogólnie nie jest dobrym pomysłem, patrz np. Problemy spowodowane kategoryzowaniem zmiennych ciągłych .

chl
źródło
5

To może być odpowiednie do włączenia nieliniowej transformacji X , ale chyba nie po prostu x x x , czyli x 2 . Uważam, że może to być przydatne odniesienie w określaniu, którą transformację użyć:

GEP Box i Paul W. Tidwell (1962). Transformacja zmiennych niezależnych. Technometrics Tom 4 Numer 4, strony 531-550. http://www.jstor.org/stable/1266288

Niektórzy uważają rodzinę transformacji Boxa-Tidwella za bardziej ogólną, niż jest to często właściwe dla interpretacji i parsimony. Patrick Royston i Doug Altman wprowadzili termin ułamkowe wielomiany dla transformacji Boxa-Tidwella o prostych mocach racjonalnych w wpływowym artykule z 1994 roku:

P. Royston i DG Altman (1994). Regresja z wykorzystaniem ułamkowych wielomianów ciągłych zmiennych towarzyszących: oszczędne modelowanie parametryczne. Applied Statistics Tom 43: strony 429–467. http://www.jstor.org/stable/2986270

W szczególności Patrick Royston kontynuował pracę i publikował na ten temat zarówno artykuły, jak i oprogramowanie, czego zwieńczeniem była książka z Willi Sauerbrei:

P. Royston i W. Sauerbrei (2008). Budowanie modeli wielowymiarowych: Pragmatyczne podejście do analizy regresji oparte na wielomianach ułamkowych do modelowania zmiennych ciągłych . Chichester, Wielka Brytania: Wiley. ISBN 978-0-470-02842-1

jeden przystanek
źródło
4

Nie zapomnij sprawdzić interakcji między X a innymi zmiennymi niezależnymi. Pozostawienie niemodelowanych interakcji może sprawić, że X będzie wyglądać, jakby miał nieliniowy efekt, gdy po prostu ma nieaddytywny.

sprzężonyprior
źródło
Słuszna uwaga. Natknąłem się tylko na odwrót: zakładanie, że efekt jest liniowy, gdy nie jest, może prowadzić do fałszywych dowodów statystycznych dla multiplikatywnych terminów interakcji.
onestop
1
@onstop, czy masz na ten temat referencje? Wierzę w to, ale mam problem z ustaleniem, dlaczego tak się stanie.
Makro