Czytałem, że estymator 2SLS jest nadal spójny nawet z binarną zmienną endogenną ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). W pierwszym etapie zamiast modelu liniowego zostanie uruchomiony model leczenia probitowego.
Czy istnieje formalny dowód na to, że 2SLS jest nadal spójny, nawet jeśli 1. etap jest modelem probit lub logit?
A co jeśli wynik jest również binarny? Rozumiem, że jeśli mamy wynik binarny i binarną zmienną endogeniczną (1. i 2. etap to oba binarne modele probit / logit), naśladowanie metody 2SLS da niespójne oszacowanie. Czy jest na to jakiś formalny dowód? Książka ekonometryczna Wooldridge'a ma pewne dyskusje, ale myślę, że nie ma rygorystycznego dowodu, który wykazywałby niespójność.
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
współczynnik p = 1.19984
. Prowadzę tylko jedną symulację, ale z dużą próbką.
Odpowiedzi:
Podobne pytanie dotyczy pierwszego etapu probitowego i drugiego etapu OLS. W odpowiedzi podałem link do notatek, które zawierają formalny dowód niespójności tej regresji, która jest formalnie znana jako „regresja zabroniona”, jak to określił Jerry Hausman. Główną przyczyną niespójności pierwszego etapu probit / drugiego etapu OLS jest to, że ani operator oczekiwań, ani operator rzutów liniowych nie przechodzą przez nieliniowy pierwszy etap. Dlatego też dopasowane wartości z pierwszego etapu probit są nieskorelowane z terminem błędu drugiego etapu tylko przy bardzo restrykcyjnych założeniach, które prawie nigdy nie mają zastosowania w praktyce. Pamiętaj jednak, że formalny dowód niespójności zakazanej regresji jest dość skomplikowany, jeśli dobrze pamiętam.
Bardziej szczegółowe omówienie tego znajduje się w doskonałych notatkach wykładowych Kit Baum na ten temat. Ze slajdu 7 omawia wykorzystanie liniowego modelu prawdopodobieństwa w kontekście 2SLS.
Wreszcie, jeśli naprawdę chcesz użyć probit, ponieważ chcesz bardziej wydajnych szacunków, istnieje inny sposób, o którym wspomniano również w Wooldridge (2010) „Analiza ekonometryczna danych przekroju i panelu”. Powyższa połączona odpowiedź zawiera ją, powtarzam ją tutaj dla kompletności. Jako zastosowany przykład patrz Adams i in. (2009), którzy stosują trzyetapową procedurę, która wygląda następująco:
Ta procedura nie jest objęta problemem niedozwolonej regresji, ale potencjalnie zapewnia bardziej wydajne oszacowanie interesującego cię parametru.
źródło