Kiedy analizuję moje zmienne w dwóch osobnych (jednoczynnikowych) modelach regresji logistycznej, otrzymuję:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
ale kiedy wprowadzę je do jednego modelu wielokrotnej regresji logistycznej, otrzymuję:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Oba predyktory są dychotomiczne (kategoryczne). Sprawdziłem wielokoliniowość.
Nie jestem pewien, czy podałem wystarczające informacje, ale nie rozumiem, dlaczego predyktor 1 zmienił się z istotnego na nieistotny i dlaczego iloraz szans jest tak różny w modelu regresji wielokrotnej. Czy ktoś może podać podstawowe wyjaśnienie tego, co się dzieje?
Odpowiedzi:
Istnieje kilka przyczyn (z których żaden nie jest konkretnie związany z regresją logistyczną, ale może wystąpić w dowolnej regresji).
Korelacja regresorów: Twoje regresory mogą być ze sobą powiązane, skutecznie mierząc coś podobnego. Powiedzmy, że twój model logit ma na celu wyjaśnienie statusu rynku pracy (pracujący / niepracujący) w zależności od doświadczenia i wieku. Indywidualnie obie zmienne są pozytywnie powiązane ze statusem, ponieważ bardziej doświadczeni / starsi (wykluczając bardzo starych pracowników ze względu na argument) pracownicy łatwiej znajdują pracę niż absolwenci. Oczywiście te dwie zmienne są ze sobą ściśle powiązane, ponieważ musisz być starszy, aby mieć więcej doświadczenia. Dlatego te dwie zmienne w zasadzie „współzawodniczą” o wyjaśnienie statusu, co może, szczególnie w małych próbkach, skutkować utratą obu zmiennych, ponieważ żaden z efektów może nie być wystarczająco silny i wystarczająco precyzyjnie oszacowany podczas kontrolowania drugiej znaczące szacunki. Zasadniczo pytasz: jaki jest pozytywny efekt kolejnego roku doświadczenia przy utrzymywaniu stałego wieku? W twoim zestawie danych może być bardzo niewielu pracowników, którzy nie odpowiedzą na to pytanie, więc efekt zostanie niedokładnie oszacowany, co doprowadzi do dużych wartości p.
Błędnie określone modele: Podstawowa teoria dla statystyki t / wartości p wymaga oszacowania poprawnie określonego modelu. Teraz, jeśli regresujesz tylko na jednym predyktorze, szanse są dość duże, że ten model jednoczynnikowy cierpi na pominięte zmienne odchylenie. W związku z tym wszystkie zakłady są wyłączone, jeśli chodzi o zachowanie wartości p. Zasadniczo musisz uważać, aby im zaufać, gdy Twój model jest nieprawidłowy.
źródło
Nie ma konkretnego powodu, dla którego tak się nie powinno stać. Regresja wielokrotna stawia inne pytanie niż regresja prosta. W szczególności regresja wielokrotna (w tym przypadku regresja wielokrotna logistyczna) pyta o związek między zmiennymi zależnymi i zmiennymi niezależnymi, kontrolując inne zmienne niezależne. Prosta regresja pyta o związek między zmienną zależną a (pojedynczą) zmienną niezależną.
Jeśli dodasz kontekst swojego badania (np. Jakie są te zmienne?) Może być możliwe udzielenie bardziej szczegółowych odpowiedzi. Ponadto, biorąc pod uwagę, że wszystkie trzy zmienne w twoim przypadku są dychotomiami, możesz z łatwością przedstawić nam dane ... do podsumowania tego potrzeba tylko 8 linii:
itp.
źródło