Twoja sprawa jest mniej problematyczna niż na odwrót. Operatory oczekiwań i projekcji liniowych przechodzą przez liniowy pierwszy etap (np. OLS), ale nie przez nieliniowe, takie jak probit lub logit. Dlatego nie jest problemem, jeśli najpierw regresujesz ciągłą zmienną endogenną na swoim instrumencie (instrumentach) ,
a następnie użyjesz dopasowanych wartości w drugim etapie probit do oszacowania
Z X i = a + Z ' i gatunku + η i Pr ( Y i = 1 | X I ) = Pr ( β X i + ε i > 0 )XZ
Xja= a + Z′jaπ+ ηja
Pr ( Yja= 1 | Xˆja) = Pr ( βXˆja+ ϵja> 0 )
Standardowe błędy nie będą właściwe, ponieważ nie jest zmienną losową, ale wielkością szacunkową. Możesz to naprawić, ładując jednocześnie pierwszy i drugi etap. W Stacie byłoby to coś w rodzajuXˆja
// use a toy data set as example
webuse nlswork
// set up the program including 1st and 2nd stage
program my2sls
reg grade age race tenure
predict grade_hat, xb
probit union grade_hat age race
drop grade_hat
end
// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls
W tym przykładzie chcemy oszacować wpływ lat edukacji na prawdopodobieństwo bycia w związku zawodowym. Biorąc pod uwagę fakt, że lata edukacji mogą być endogeniczne, przygotowujemy je na lata stażu w pierwszym etapie. Oczywiście nie ma to sensu z punktu widzenia interpretacji, ale ilustruje kod.
Tylko upewnij się, że używasz tych samych egzogennych zmiennych kontrolnych zarówno w pierwszym, jak i drugim etapie. W powyższym przykładzie są to, age, race
podczas gdy (niesensowny) instrument tenure
jest tylko w pierwszym etapie.