Znaczące predyktory stają się nieistotne w wielokrotnej regresji logistycznej

11

Kiedy analizuję moje zmienne w dwóch osobnych (jednoczynnikowych) modelach regresji logistycznej, otrzymuję:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

ale kiedy wprowadzę je do jednego modelu wielokrotnej regresji logistycznej, otrzymuję:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Oba predyktory są dychotomiczne (kategoryczne). Sprawdziłem wielokoliniowość.

Nie jestem pewien, czy podałem wystarczające informacje, ale nie rozumiem, dlaczego predyktor 1 zmienił się z istotnego na nieistotny i dlaczego iloraz szans jest tak różny w modelu regresji wielokrotnej. Czy ktoś może podać podstawowe wyjaśnienie tego, co się dzieje?

Annie
źródło
2
wielowymiarowy zwykle oznacza wiele zmiennych zależnych - miałeś na myśli wiele predyktorów, prawda? Zwykle określa się to mianem regresji wielokrotnej.
Makro
1
Ponadto z różnych modeli regresji logistycznej zwykle nie są porównywalne. Wynika to z faktu, że skala się zmieniła - jest to subtelna kwestia, ale podstawową ideą jest to, że całkowita wariancja (w ukrytej skali, w której naturalnie powstaje regresja logistyczna - patrz en.wikipedia.org/wiki/... ) nie jest stała we wszystkich modelach, dlatego nie należy oczekiwać, że współczynniki będą takie same dla różnych modeli, choć niekoniecznie wyjaśni to zmianę znaczenia statystycznego. Jak sprawdziłeś zależność między tymi dwoma predyktorami? β
Makro
ah, ok dziękuję. Sprawdziłem diagnostykę kolinearności poprzez regresję liniową na spss i sprawdziłem tolerancję i VIF - czy to prawda?
Annie
Niezły komentarz @Macro. Niejasno pamiętam czytanie o sposobach rozwiązania tego problemu dotyczącego wagi, ale nie pamiętam gdzie.
Peter Flom - Przywróć Monikę
1
@PeterFlom, jedną rzeczą, którą możesz zrobić, jest skalowanie współczynników według wariancji predyktorów liniowych (plus , wariancja standardowego rozkładu logistycznego) - to stawia je w tej samej skali. Oczywiście nie można ich już interpretować jako iloraz szans po wykonaniu tej czynności. π2)/3)
Makro

Odpowiedzi:

20

Istnieje kilka przyczyn (z których żaden nie jest konkretnie związany z regresją logistyczną, ale może wystąpić w dowolnej regresji).

  1. Utrata stopni swobody: próbując oszacować więcej parametrów z danego zestawu danych, skutecznie pytasz o więcej, co kosztuje precyzję, a zatem prowadzi do niższych statystyk t, a zatem wyższych wartości p.
  2. Korelacja regresorów: Twoje regresory mogą być ze sobą powiązane, skutecznie mierząc coś podobnego. Powiedzmy, że twój model logit ma na celu wyjaśnienie statusu rynku pracy (pracujący / niepracujący) w zależności od doświadczenia i wieku. Indywidualnie obie zmienne są pozytywnie powiązane ze statusem, ponieważ bardziej doświadczeni / starsi (wykluczając bardzo starych pracowników ze względu na argument) pracownicy łatwiej znajdują pracę niż absolwenci. Oczywiście te dwie zmienne są ze sobą ściśle powiązane, ponieważ musisz być starszy, aby mieć więcej doświadczenia. Dlatego te dwie zmienne w zasadzie „współzawodniczą” o wyjaśnienie statusu, co może, szczególnie w małych próbkach, skutkować utratą obu zmiennych, ponieważ żaden z efektów może nie być wystarczająco silny i wystarczająco precyzyjnie oszacowany podczas kontrolowania drugiej znaczące szacunki. Zasadniczo pytasz: jaki jest pozytywny efekt kolejnego roku doświadczenia przy utrzymywaniu stałego wieku? W twoim zestawie danych może być bardzo niewielu pracowników, którzy nie odpowiedzą na to pytanie, więc efekt zostanie niedokładnie oszacowany, co doprowadzi do dużych wartości p.

  3. Błędnie określone modele: Podstawowa teoria dla statystyki t / wartości p wymaga oszacowania poprawnie określonego modelu. Teraz, jeśli regresujesz tylko na jednym predyktorze, szanse są dość duże, że ten model jednoczynnikowy cierpi na pominięte zmienne odchylenie. W związku z tym wszystkie zakłady są wyłączone, jeśli chodzi o zachowanie wartości p. Zasadniczo musisz uważać, aby im zaufać, gdy Twój model jest nieprawidłowy.

Christoph Hanck
źródło
Dziękujemy za dokładną i szybką odpowiedź. Najpierw spróbuję wyeliminować dowolną wielokoliniowość. Sprawdziłem korelacje między zmiennymi i znalazłem kilka, i spróbuję uruchomić czynniki inflacyjne wariancji, ponieważ słyszałem, że to również dobry sposób, aby to sprawdzić. Jeśli okaże się, że to tylko kwestia stopnia swobody, czy mogę coś z tym zrobić? Mogę wyjaśnić, że tak się dzieje, ale wydaje się, że zagraża to integralności regresji, jeśli jej znaczenie tak gwałtownie spada.
Sam O'Brien,
3
@ SamO'Brien: Zauważ, że jeśli twoim celem jest naprawdę to, co powiedziałeś - „spróbuj określić”, które zmienne niezależne potencjalnie powodują odpowiedź ”- ignorując niektóre tylko dlatego, że są skorelowane z innymi, aby„ wyeliminować dowolną wielokoliniowość ” nie pomoże w osiągnięciu tego
Scortchi - Przywróć Monikę
1
Czy jest możliwe, aby było odwrotnie, tj. Ten sam predyktor nieistotny w regresji prostej, ale istotny w regresji wielokrotnej?
gkcn
8

Nie ma konkretnego powodu, dla którego tak się nie powinno stać. Regresja wielokrotna stawia inne pytanie niż regresja prosta. W szczególności regresja wielokrotna (w tym przypadku regresja wielokrotna logistyczna) pyta o związek między zmiennymi zależnymi i zmiennymi niezależnymi, kontrolując inne zmienne niezależne. Prosta regresja pyta o związek między zmienną zależną a (pojedynczą) zmienną niezależną.

Jeśli dodasz kontekst swojego badania (np. Jakie są te zmienne?) Może być możliwe udzielenie bardziej szczegółowych odpowiedzi. Ponadto, biorąc pod uwagę, że wszystkie trzy zmienne w twoim przypadku są dychotomiami, możesz z łatwością przedstawić nam dane ... do podsumowania tego potrzeba tylko 8 linii:

reV.jaV.1jaV.2)doountZAZAZA10ZAZAb20

itp.

Peter Flom - Przywróć Monikę
źródło