Jestem mylony z założeniem liniowości logitu dla ciągłych zmiennych predykcyjnych w analizie regresji logistycznej. Czy musimy sprawdzać zależność liniową podczas przeszukiwania potencjalnych predyktorów przy użyciu analizy regresji logistycznej z jedną zmienną?
W moim przypadku używam analizy wielokrotnej regresji logistycznej do identyfikacji czynników związanych ze stanem odżywiania (dychotomiczny wynik) wśród uczestników. Ciągłe zmienne, w tym wiek, wskaźnik współwystępowania Charlsona, wskaźnik indeksu Barthel, siła przyczepności ręki, wynik GDS, BMI itp. Pierwszym krokiem jest sprawdzenie istotnych zmiennych przy użyciu prostej regresji logistycznej. Czy muszę sprawdzać założenie liniowości podczas prostych analiz regresji logistycznej dla każdej zmiennej ciągłej? Czy powinienem po prostu to sprawdzić w ostatecznym modelu wielokrotnej regresji logistycznej?
Poza tym, dla mojego zrozumienia, musimy przekształcić nieliniową zmienną ciągłą przed wprowadzeniem jej do modelu. Czy mogę kategoryzować nieliniową zmienną ciągłą zamiast transformacji?
źródło
Odpowiedzi:
Jak szczegółowo opisuję w mojej książce Strategie modelowania regresji (2. wydanie dostępne 04.09.2015, e-book dostępny już teraz), proces próby przekształcenia zmiennych przed modelowaniem jest obarczony problemami, jednym z najważniejszych jest zniekształcenie błędów typu I i przedziałów ufności. Kategoryzacja powoduje jeszcze poważniejsze problemy, zwłaszcza brak dopasowania i arbitralności.
Zamiast myśleć o tym jako problemie „sprawdzania braku dopasowania”, lepiej jest myśleć o nim jako o modelu, który najprawdopodobniej będzie pasował. Jednym ze sposobów na to jest przydzielenie parametrów do części modelu, które prawdopodobnie będą silne i dla których nie wiadomo, że liniowość jest rozsądnym założeniem. W tym procesie bada się efektywną wielkość próby (w twoim przypadku minimalną liczbę zdarzeń i liczbę nie-zdarzeń) i pozwala na złożoność w zakresie, w jakim pozwala na to zawartość danych (np. Stosując zdarzenia 15: 1: reguła parametru kciuka). Dzięki wstępnemu określeniu elastycznego addytywnego modelu parametrycznego można się mylić tylko wtedy, gdy ma to znaczenie, pomijając ważne interakcje. Ogólnie mówiąc, interakcje powinny być wcześniej określone.
Możesz sprawdzić, czy nieliniowość była potrzebna w modelu za pomocą testu formalnego (ułatwionego dzięki
rms
pakietowi R ), ale usuwając takie warunki, gdy nieistotność tworzy zniekształcenia inferencyjne, które przedstawiłem powyżej.Więcej informacji można znaleźć w notatkach do kursu pod adresem http://biostat.mc.vanderbilt.edu/rms .
źródło
Regresja logistyczna NIE zakłada liniowej zależności między zmiennymi zależnymi i niezależnymi. Zakłada liniową zależność między prawdopodobieństwem logarytmicznym zmiennej zależnej i zmiennych niezależnych (jest to głównie problem z ciągłymi zmiennymi niezależnymi.) Istnieje test o nazwie Box-Tidwell, którego można użyć do tego. Polecenie stata jest boxtid. Przepraszam, nie znam polecenia SPSS.
Może to być pomocne - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm
źródło
Myślę, że powinniśmy wykreślić zmienne ciągłe i sprawdzić liniowość przed użyciem ich w modelu regresji. Jeśli liniowość wydaje się rozsądnym założeniem, myślę, że prawdopodobnie będzie to nadal obowiązywać w ostatecznym modelu regresji wielowymiarowej w większości przypadków, a jeśli nie, myślę, że może to być spowodowane przede wszystkim efektami interakcji, które można poprawić.
Tak, kategoryzacja nieliniowych zmiennych ciągłych jest jedną z opcji. Problem polega na tym, że kategorie mogą w większości przypadków wydawać się arbitralne, a niewielkie różnice w punktach odcięcia między kategoriami mogą prowadzić do różnych wyników (szczególnie pod względem znaczenia statystycznego) oraz, w zależności od liczby kategorii i wielkości twoich danych , możesz stracić wiele cennych informacji w danych.
Alternatywnym podejściem jest zastosowanie uogólnionego modelu addytywnego, który jest modelem regresji, który można określić jako regresję logistyczną, ale w którym można uwzględnić nieliniowe zmienne niezależne jako „płynniejsze funkcje”. Technicznie nie jest to bardzo skomplikowane w R, ale nie wiem o innych pakietach oprogramowania. Modele te będą identyfikować nieliniowe związki ze zmiennymi zależnymi, ale wadą może być to, że nie otrzymujesz dokładnych i uporządkowanych liczb na wyjściu, ale raczej krzywą wizualną, która jest testowana pod kątem istotności statystycznej. To zależy od tego, jak bardzo jesteś zainteresowany kwantyfikacją wpływu zmiennej nieliniowej na zmienną wynikową.
Na koniec możesz użyć uogólnionych modeli addytywnych, jak opisano powyżej, aby przetestować założenia liniowości w swoim modelu regresji logistycznej, przynajmniej jeśli używasz R.
Spójrz na tę książkę (bardzo inną od twojej i mojej, ale to w ogóle nie ma znaczenia): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 i qid = 1440928328 & sr = 8-1 i słowa kluczowe = zuur + ekologia
źródło
Ponieważ nie znam twoich danych, nie wiem, czy połączenie tych trzech zmiennych - zmiennej podstawowej, jej logu naturalnego i terminu interaktywnego - będzie problemem. Wiem jednak, że w przeszłości, kiedy rozważałem połączenie trzech terminów, często tracę konceptualny ślad tego, co mierzę. Musisz mieć dobrą kontrolę nad tym, co mierzysz, w przeciwnym razie będziesz miał problemy z wyjaśnieniem swoich wyników. Mam nadzieję, że to pomaga!
źródło