Pominięte zmienne odchylenie w regresji logistycznej vs. pominięte zmienne odchylenie w zwykłej regresji metodą najmniejszych kwadratów

17

Mam pytanie dotyczące pominiętej zmienności stronniczej w regresji logistycznej i liniowej.

Powiedzmy, że pomijam niektóre zmienne z modelu regresji liniowej. Udawaj, że te pominięte zmienne nie są skorelowane ze zmiennymi, które zawarłem w moim modelu. Te pominięte zmienne nie wpływają na współczynniki w moim modelu.

Ale w regresji logistycznej właśnie dowiedziałem się, że to nieprawda. Pominięte zmienne będą wpływać na współczynniki uwzględnionych zmiennych, nawet jeśli pominięte zmienne nie są skorelowane z włączonymi zmiennymi. Znalazłem artykuł na ten temat, ale nie mogę zrobić z niego głów ani ogonów.

Oto papier i niektóre slajdy PowerPoint.

Najwyraźniej tendencyjność zawsze jest bliska zeru. Czy ktoś może wyjaśnić, jak to działa?

ConfusedEconometricsUndergrad
źródło
Czy znasz sposób, w jaki model regresji logistycznej wyłania się z bazowego modelu regresji liniowej „zmiennej utajonej”?
Alecos Papadopoulos
@AlecosPapadopoulos I dla jednego nie jestem. Co to za danie
Alexis,
Istnieją inne artykuły na ten temat, ale ten, do którego linkujesz, jest najłatwiejszy, jaki znam. Więc nie sądzę, żebym mógł to poprawić.
Maarten Buis,
Drogi panie Papadopoulos: Przeczytałem o idei zmiennej utajonej. Dlaczego pytasz?
ConfusedEconometricsUndergrad
@ Alexis patrz np ten post, stats.stackexchange.com/questions/80611/... oraz artykuł Wikipedia, en.wikipedia.org/wiki/... . Podejście to wyjaśnia również, że to, co przyjmujemy na temat błędu modelu bazowego, określa, jaki model otrzymamy na poziomie prawdopodobieństwa. Dla innego przykładu, jeśli założymy, że podstawowy błąd występuje po mundurze, otrzymujemy liniowy model prawdopodobieństwa, patrz stats.stackexchange.com/questions/81789
Alecos Papadopoulos

Odpowiedzi:

20

Przypadek „tendencyjności tłumienia” można lepiej przedstawić, jeśli przeanalizujemy model „probit” - ale wynik przeniesie się również do regresji logistycznej.

Poniżej modeli warunkowego prawdopodobieństwa (modele logistyczne (logit), „probit” i „prawdopodobieństwo liniowe”) możemy postulować ukryty (nieobserwowalny) model regresji liniowej:

y=Xβ+u

gdzie jest ciągłą nieobserwowalną zmienną (a X jest macierzą regresora). Przyjmuje się, że składnik błędu jest niezależny od regresorów i podąża za rozkładem, którego gęstość jest symetryczna wokół zera , aw naszym przypadku standardowy rozkład normalny F U ( u ) = Φ ( u ) .yXFU(u)=Φ(u)

Zakładamy, że to, co obserwujemy, tj. Zmienna binarna , jest funkcją wskaźnika nieobserwowalnego y :yy

y=1ify>0,y=0ify0

Następnie pytamy „jakie jest prawdopodobieństwo, że przyjmie wartość 1, biorąc pod uwagę regresory?” (tzn. patrzymy na prawdopodobieństwo warunkowe). To jesty1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

ostatnia równość wynika z właściwości „odbijającej” standardowej funkcji rozkładu skumulowanego, która pochodzi z symetrii funkcji gęstości wokół zera. Zauważ, że chociaż założyliśmy, że jest niezależny od X , uwarunkowanie X jest konieczne, aby potraktować wielkość X β jako nieprzypadkową.uXXXβ

Jeśli założymy, że , otrzymujemy model teoretycznyXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

Niech teraz będzie niezależny od X 1 i błędnie wyłączony ze specyfikacji regresji leżącej u podstaw. Więc określamyX2X1

Załóżmy ponadto, że X 2 jest również normalną zmienną losową X 2N ( μ 2 , σ 2 2 ) . Ale to oznacza, że

y=b0+b1X1+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

z powodu zamknięcia-dodania rozkładu normalnego (i założenia niezależności). Stosując tę ​​samą logikę jak poprzednio, oto mamy

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

ϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

and one can compare models (1) and (2).

The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

b^1pb11+b22σ22|b^1|<|b1|

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

Alecos Papadopoulos
źródło