Jak powinienem sprawdzić założenie liniowości logitu dla ciągłych zmiennych niezależnych w analizie regresji logistycznej?

13

Jestem mylony z założeniem liniowości logitu dla ciągłych zmiennych predykcyjnych w analizie regresji logistycznej. Czy musimy sprawdzać zależność liniową podczas przeszukiwania potencjalnych predyktorów przy użyciu analizy regresji logistycznej z jedną zmienną?

W moim przypadku używam analizy wielokrotnej regresji logistycznej do identyfikacji czynników związanych ze stanem odżywiania (dychotomiczny wynik) wśród uczestników. Ciągłe zmienne, w tym wiek, wskaźnik współwystępowania Charlsona, wskaźnik indeksu Barthel, siła przyczepności ręki, wynik GDS, BMI itp. Pierwszym krokiem jest sprawdzenie istotnych zmiennych przy użyciu prostej regresji logistycznej. Czy muszę sprawdzać założenie liniowości podczas prostych analiz regresji logistycznej dla każdej zmiennej ciągłej? Czy powinienem po prostu to sprawdzić w ostatecznym modelu wielokrotnej regresji logistycznej?

Poza tym, dla mojego zrozumienia, musimy przekształcić nieliniową zmienną ciągłą przed wprowadzeniem jej do modelu. Czy mogę kategoryzować nieliniową zmienną ciągłą zamiast transformacji?

Sze Lin Tan
źródło
1
Należy nie kategoryzować, lepiej spróbować dłutowanie!
kjetil b halvorsen

Odpowiedzi:

11

Jak szczegółowo opisuję w mojej książce Strategie modelowania regresji (2. wydanie dostępne 04.09.2015, e-book dostępny już teraz), proces próby przekształcenia zmiennych przed modelowaniem jest obarczony problemami, jednym z najważniejszych jest zniekształcenie błędów typu I i przedziałów ufności. Kategoryzacja powoduje jeszcze poważniejsze problemy, zwłaszcza brak dopasowania i arbitralności.

Zamiast myśleć o tym jako problemie „sprawdzania braku dopasowania”, lepiej jest myśleć o nim jako o modelu, który najprawdopodobniej będzie pasował. Jednym ze sposobów na to jest przydzielenie parametrów do części modelu, które prawdopodobnie będą silne i dla których nie wiadomo, że liniowość jest rozsądnym założeniem. W tym procesie bada się efektywną wielkość próby (w twoim przypadku minimalną liczbę zdarzeń i liczbę nie-zdarzeń) i pozwala na złożoność w zakresie, w jakim pozwala na to zawartość danych (np. Stosując zdarzenia 15: 1: reguła parametru kciuka). Dzięki wstępnemu określeniu elastycznego addytywnego modelu parametrycznego można się mylić tylko wtedy, gdy ma to znaczenie, pomijając ważne interakcje. Ogólnie mówiąc, interakcje powinny być wcześniej określone.

Możesz sprawdzić, czy nieliniowość była potrzebna w modelu za pomocą testu formalnego (ułatwionego dzięki rmspakietowi R ), ale usuwając takie warunki, gdy nieistotność tworzy zniekształcenia inferencyjne, które przedstawiłem powyżej.

Więcej informacji można znaleźć w notatkach do kursu pod adresem http://biostat.mc.vanderbilt.edu/rms .

Frank Harrell
źródło
Przepraszam, że nie wspomniałem o tym wcześniej, ale nie znam R i używałem SPSS do analiz. Czy na podstawie dostarczonego rozwiązania oznacza to, że jeśli użyję efektywnej wielkości próbki (15: 1), mogę uwzględnić wszystkie ważne czynniki (z przeglądu) bez sprawdzania ich liniowości?
Sze Lin Tan
Z analiz analizy regresji logistycznej przeprowadzonych w jednym przypadku, BMI, obwód łydki, obwód środkowej części ramienia wnoszą znaczący wkład w prosty model regresji logistycznej stanu odżywienia (p <0,05). Okazało się jednak, że nie spełniły założenia liniowości, gdy sprawdzam to przy użyciu metody Boxa-Tidwella (dla każdego prostego modelu logistycznego). Nie jestem więc pewien, czy powinienem przejść do analizy wielu regresji logistycznych z tymi predyktorami, czy nie.
Sze Lin Tan
5
Budowanie modeli na podstawie analizy jednozmiennej jest nieprawidłowe. Używasz wariantu do regresji krokowej, o której wiadomo, że powoduje wiele problemów.
Frank Harrell,
8

Regresja logistyczna NIE zakłada liniowej zależności między zmiennymi zależnymi i niezależnymi. Zakłada liniową zależność między prawdopodobieństwem logarytmicznym zmiennej zależnej i zmiennych niezależnych (jest to głównie problem z ciągłymi zmiennymi niezależnymi.) Istnieje test o nazwie Box-Tidwell, którego można użyć do tego. Polecenie stata jest boxtid. Przepraszam, nie znam polecenia SPSS.

Może to być pomocne - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

użytkownik114667
źródło
Link jest teraz zepsuty.
Alexey Shrub,
1

Myślę, że powinniśmy wykreślić zmienne ciągłe i sprawdzić liniowość przed użyciem ich w modelu regresji. Jeśli liniowość wydaje się rozsądnym założeniem, myślę, że prawdopodobnie będzie to nadal obowiązywać w ostatecznym modelu regresji wielowymiarowej w większości przypadków, a jeśli nie, myślę, że może to być spowodowane przede wszystkim efektami interakcji, które można poprawić.

Tak, kategoryzacja nieliniowych zmiennych ciągłych jest jedną z opcji. Problem polega na tym, że kategorie mogą w większości przypadków wydawać się arbitralne, a niewielkie różnice w punktach odcięcia między kategoriami mogą prowadzić do różnych wyników (szczególnie pod względem znaczenia statystycznego) oraz, w zależności od liczby kategorii i wielkości twoich danych , możesz stracić wiele cennych informacji w danych.

Alternatywnym podejściem jest zastosowanie uogólnionego modelu addytywnego, który jest modelem regresji, który można określić jako regresję logistyczną, ale w którym można uwzględnić nieliniowe zmienne niezależne jako „płynniejsze funkcje”. Technicznie nie jest to bardzo skomplikowane w R, ale nie wiem o innych pakietach oprogramowania. Modele te będą identyfikować nieliniowe związki ze zmiennymi zależnymi, ale wadą może być to, że nie otrzymujesz dokładnych i uporządkowanych liczb na wyjściu, ale raczej krzywą wizualną, która jest testowana pod kątem istotności statystycznej. To zależy od tego, jak bardzo jesteś zainteresowany kwantyfikacją wpływu zmiennej nieliniowej na zmienną wynikową.

Na koniec możesz użyć uogólnionych modeli addytywnych, jak opisano powyżej, aby przetestować założenia liniowości w swoim modelu regresji logistycznej, przynajmniej jeśli używasz R.

Spójrz na tę książkę (bardzo inną od twojej i mojej, ale to w ogóle nie ma znaczenia): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 i qid = 1440928328 & sr = 8-1 i słowa kluczowe = zuur + ekologia

JonB
źródło
Nie znam R i używałem SPSS do analiz. Przepraszam, że nie wspomniałem o tym wcześniej. Czy mogę zastosować podejście Boxa-Tidwella (tworząc warunek interakcji między zmienną ciągłą a własnym logem naturalnym i dodając warunek interakcji do modelu), aby sprawdzić założenie liniowości?
Sze Lin Tan
1

Ponieważ nie znam twoich danych, nie wiem, czy połączenie tych trzech zmiennych - zmiennej podstawowej, jej logu naturalnego i terminu interaktywnego - będzie problemem. Wiem jednak, że w przeszłości, kiedy rozważałem połączenie trzech terminów, często tracę konceptualny ślad tego, co mierzę. Musisz mieć dobrą kontrolę nad tym, co mierzysz, w przeciwnym razie będziesz miał problemy z wyjaśnieniem swoich wyników. Mam nadzieję, że to pomaga!

użytkownik114667
źródło