Szacowanie

14

Mam teoretyczny model ekonomiczny, który jest następujący,

y=a+b1x1+b2x2+b3x3+u

Więc teoria mówi, że istnieją czynniki , i x 3 do oszacowania y .x 2x1x2x3y

Teraz mam prawdziwe dane i muszę oszacować b1 , b2 , b3 . Problem polega na tym, że prawdziwy zestaw danych zawiera tylko dane dla x1 i x2 ; brak danych dla x3 . Tak więc model, który mogę dopasować, to:

y=a+b1x1+b2x2+u
  • Czy oszacowanie tego modelu jest w porządku?
  • Czy tracę coś szacując?
  • Jeśli oszacuję b1 , b2 , to dokąd zmierza termin b3x3 ?
  • Czy wynika to z terminu błędu ?u

I chcielibyśmy założyć, że nie jest skorelowane z x 1 i x 2 .x3x1x2

renatia
źródło
Czy możesz podać szczegóły swojego zestawu danych, to znaczy zmiennej zależnej i zmiennych niezależnych x 1 i x 2 ? yx1x2
Vara
Potraktuj to jako przykład hipotetyczny bez określonego zestawu danych ...
renatia

Odpowiedzi:

20

Problem, o który musisz się martwić, nazywa się endogenicznością . Dokładniej, zależy to od tego, czy jest skorelowany w populacji z x 1 czy x 2 . Jeśli tak jest, wówczas związany b j będzie stronniczy s. Jest tak, ponieważ metody regresji OLS zmuszają reszty, u i , do nieskorelowania z twoimi współzmiennymi x js . Jednak twoje pozostałości składają się z pewnym nieredukowalnej przypadkowości, ε ja , i zmiennej niedotrzymanego (ale istotne), x 3 , który przez zastrzeżeniemx3x1x2bjuixjεix3jest skorelowane z i / lub x 2 . Z drugiej strony, jeśli zarówno x 1, jak i x 2 nie są skorelowane z x 3 w populacji, to ich wartości b nie będą przez to tendencyjne (oczywiście mogą być one tendencyjne przez coś innego). Jednym ze sposobów, w jaki ekonometrycy próbują poradzić sobie z tym problemem, jest użycie zmiennych instrumentalnych . x1x2 x1x2x3b

Dla większej przejrzystości napisałem szybką symulację w R, która pokazuje, że rozkład próbkowania jest bezstronny / wyśrodkowany na prawdziwej wartości β 2 , gdy nie jest on skorelowany z x 3 . Jednak w drugim przebiegu zauważ, że x 3 nie jest skorelowane z x 1 , ale nie x 2 . Nieprzypadkowo b 1 jest bezstronny, ale b 2 jest stronniczy. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64
gung - Przywróć Monikę
źródło
Czy możesz więc wyjaśnić nieco więcej - co się stanie, jeśli założymy, że x3 nie jest skorelowane z $ x_1 i x2? Co się stanie, jeśli oszacuję y = a + b1x1 + b2x2 + u?
renatia
1
zostaną uwzględnione w resztach w obu kierunkach, alejeślinie jest ono skorelowane w populacji, wówczas twoje inne b s nie będą stronnicze z powodu braku x 3 , ale jeśli nie jest nieskorelowane, to będą. b3x3bx3
gung - Przywróć Monikę
Aby wyrazić to jaśniej: Jeśli nie jest skorelowane z x 1 lub x 2 , wszystko jest w porządku. x3x1x2
gung - Przywróć Monikę
Omawiam drugą stronę tego problemu w mojej odpowiedzi tutaj: Czy dodanie większej liczby zmiennych do regresji wielowymiarowej zmienia współczynniki istniejących zmiennych?
gung - Przywróć Monikę
3

Pomyślmy o tym w kategoriach geometrycznych. Pomyśl o „piłce”, powierzchni piłki. Jest to opisane jako . Teraz, jeśli masz wartości x 2 , y 2 , z 2 i masz pomiary r 2 , możesz określić swoje współczynniki „a”, „b” i „c”. (Można to nazwać elipsoidą, ale nazywanie piłki jest prostsze.)r2=ax2+by2+cz2+ϵx2y2z2r2

Jeśli masz tylko warunki i y 2 , możesz utworzyć koło. Zamiast definiować powierzchnię kuli, opiszemy wypełniony okrąg. Równanie, które zamiast tego pasuje, to r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Projektujesz „piłkę”, bez względu na kształt, w wyrażenie dla koła. Może to być „kulka” zorientowana ukośnie, która ma kształt przypominający igłę do szycia, a zatem elementy całkowicie niszczą oszacowania dwóch osi. Może to być kula, która wygląda jak prawie zmiażdżony m & m, gdzie osie monet to „x” i „y”, a projekcja jest zerowa. Nie możesz wiedzieć, która to jest bez informacji „ z ”.zz

Ten ostatni akapit mówił o sprawie „czystej informacji” i nie uwzględniał hałasu. Pomiary w świecie rzeczywistym mają sygnał z szumem. Hałas wzdłuż obwodu, który jest wyrównany do osi, będzie miał znacznie większy wpływ na dopasowanie. Chociaż masz taką samą liczbę próbek, będziesz mieć więcej niepewności w swoich oszacowaniach parametrów. Jeśli jest to inne równanie niż ten prosty przypadek zorientowany osiowo, wówczas rzeczy mogą wyglądać „w kształcie gruszki ”. Twoje bieżące równania mają kształt płaski, więc zamiast wiązania (powierzchni kuli), dane z mogą po prostu rozejść się po całej mapie - rzutowanie może być poważnym problemem.

Czy można modelować? To jest wyrok sądu. Specjalista, który rozumie szczegóły problemu, może na to odpowiedzieć. Nie wiem, czy ktoś może udzielić dobrej odpowiedzi, jeśli jest daleko od problemu.

Tracisz kilka dobrych rzeczy, w tym pewność w oszacowaniach parametrów i charakter transformowanego modelu.

Oszacowanie dla znika w epsilon i w innych oszacowaniach parametrów. Jest on uwzględniany przez całe równanie, w zależności od systemu podstawowego.b3

EngrStudent - Przywróć Monikę
źródło
f(x,y,z)
Nie jestem w stanie śledzić twojego argumentu, ponieważ nie widzę niczego, co odpowiada „wypełnionemu kwadratowi”.
whuber
0

The other answers, while not wrong, over complicate the issue a bit.

If x3 is truly uncorrelated with x1 and x2 (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, β3x3 will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

Daniel Ludwinski
źródło