Gdy chcesz oszacować prosty model, taki jak
a zamiast prawdziwego obserwujesz go tylko z pewnym błędem który jest taki, że jest nieskorelowane z i , jeśli
szacowana to
Yi=α+βXi+ϵi
YiY˜i=Yi+νiXϵY˜i=α+βXi+ϵi
ββˆ=Cov(Y˜i,Xi)Var(Xi)=Cov(Yi+νi,Xi)Var(Xi)=Cov(α+βXi+ϵi+νi,Xi)Var(Xi)=Cov(α,Xi)Var(Xi)+βCov(Xi,Xi)Var(Xi)+Cov(ϵi,Xi)Var(Xi)+Cov(νi,Xi)Var(Xi)=βVar(Xi)Var(Xi)=β
ponieważ kowariancja między zmienna losowa i stała ( ) wynosi zero, podobnie jak kowariancje między a ponieważ przyjęliśmy, że są one nieskorelowane.
X i ϵ i , ν iαXiϵi,νi
Widzisz więc, że Twój współczynnik jest konsekwentnie szacowany. Jedynym zmartwieniem jest to, że podaje dodatkowy termin błędu, który zmniejsza moc twoich testów statystycznych. W bardzo złych przypadkach takiego błędu pomiaru w zmiennej zależnej możesz nie znaleźć znaczącego efektu, nawet jeśli może on występować w rzeczywistości. Zasadniczo zmienne instrumentalne nie pomogą ci w tym przypadku, ponieważ wydają się być jeszcze bardziej nieprecyzyjne niż OLS i mogą jedynie pomóc z błędem pomiaru w zmiennej objaśniającej.Y˜i=Yi+νi=α+βXi+ϵi+νi
Analiza regresji odpowiada na pytanie: „Jaka jest ŚREDNIA wartość Y dla tych, którzy dali wartości X?” lub równoważnie: „O ile przewiduje się zmianę Y POŚREDNIEJ, jeśli zmienimy X o jedną jednostkę?” Losowy błąd pomiaru nie zmienia średnich wartości zmiennej ani średnich wartości dla podzbiorów osób, więc losowy błąd w zmiennej zależnej nie spowoduje oszacowania regresji błędu.
Załóżmy, że masz dane dotyczące wzrostu na próbce osób. Wysokości te są bardzo dokładnie mierzone, dokładnie odzwierciedlając prawdziwą postawę każdego człowieka. W próbie średnia dla mężczyzn wynosi 175 cm, a dla kobiet 162 cm. Jeśli użyjesz regresji do obliczenia, na ile płeć przewiduje wzrost, oszacuj model
Jeśli kobiety są kodowane jako 0, a mężczyźni jako 1, jest średnią kobietą lub 162 cm. Współczynnik regresji pokazuje, o ile zmienia się wysokość NA ŚREDNIM, gdy zmienisz o jedną jednostkę (od 0 do 1). wynosi 13, ponieważ ludzie, których wartość dla wynosi 0 (kobiety), mają średnią wysokość 162 cm, a ludzie, których wartość dla wynosi 1 (mężczyźni), mają średnią wysokość 175 cm; szacuje średnią różnicę między wzrostem mężczyzn i kobiet, która wynosi 13 cm. ( odzwierciedla różnicę wysokości między płciami.)β G E N D E R β G E N D E R G E N D E R β R E S I D U A LCONSTANT β GENDER β GENDER GENDER β RESIDUAL
Teraz, jeśli losowo dodasz -1 cm lub +1 cm do prawdziwej wysokości każdego, co się stanie? Osoby, których rzeczywista wysokość, powiedzmy, 170 cm, będą teraz zgłaszane jako 169 lub 171 cm. Jednak średnia próbki lub dowolnej podpróbki nie zmieni się. Ci, których rzeczywista wysokość wynosi 170 cm, będą średnio 170 cm w nowym, błędnym zbiorze danych, kobiety będą miały 162 cm itd. Jeśli ponownie uruchomisz model regresji określony powyżej przy użyciu tego nowego zestawu danych, (oczekiwana) wartość nie zmieni się, ponieważ średnia różnica między kobietami i mężczyznami wciąż wynosi 13 cm, niezależnie od błędu pomiaru. (Standardowy błąd będzie większy niż wcześniej, ponieważ wariancja zmiennej zależnej jest teraz większa.)ββ β
Jeśli występuje błąd pomiaru w zmiennej niezależnej zamiast zmiennej zależnej, będzie tendencyjnym oszacowaniem. Łatwo to zrozumieć, biorąc pod uwagę przykład wysokości. Jeśli w zmiennej wystąpi przypadkowy błąd pomiaru , niektórzy mężczyźni zostaną błędnie zakodowani jako kobiety i na odwrót. Efektem tego jest zmniejszenie pozornych różnic wysokości między płciami, ponieważ przeniesienie mężczyzn do grupy kobiet sprawi, że średnia kobiet będzie większa, a przeniesienie kobiet do grupy mężczyzn zmniejszy średnią mężczyzn. Przy błędzie pomiaru w zmiennej niezależnej będzie niższy niż bezstronna wartość 13 cm. G E N D E R ββ GENDER β
Chociaż dla uproszczenia użyłem kategorycznej zmiennej niezależnej ( ), ta sama logika dotyczy zmiennych ciągłych. Na przykład, jeśli użyjesz zmiennej ciągłej, takiej jak wysokość urodzenia, do przewidywania wzrostu osoby dorosłej, oczekiwana wartość będzie taka sama bez względu na liczbę błędów losowych w pomiarach wysokości dorosłych.βGENDER β
źródło