Kiedy obliczyć błąd standardowy współczynnik regresji, nie stanowią przypadkowości w macierzy eksperymentu . Na przykład w OLS obliczamy jako
Jeśli uznano za przypadkowy, prawo całkowitej wariancji będzie, w pewnym sensie, zażądać dodatkowego wkładu wariancji , jak również. to znaczy
Co, jeśli estymator OLS jest naprawdę bezstronny, pierwszy termin znika, ponieważ oczekiwanie jest stałe. Drugi termin to tak naprawdę: .
Jeśli znany jest parametryczny model dla to dlaczego nie zastąpimy rzeczywistym oszacowaniem kowariancji. Na przykład, jeśli jest losowym przypisaniem do leczenia, czy dwumianowa wariancja powinna być bardziej wydajnym oszacowaniem?
Dlaczego nie rozważymy zastosowania elastycznych modeli nieparametrycznych do oszacowania możliwych źródeł odchyleń w oszacowaniu OLS i odpowiedniego uwzględnienia wrażliwości na projekt (tj. Rozkład ) w pierwszym warunku całkowitej wariancji ?
Odpowiedzi:
Twoje pytanie (wraz z dodatkowym komentarzem w komentarzach) wydaje się być najbardziej interesujące w przypadku, gdy mamy randomizowaną kontrolowaną próbę, w której badacz losowo przypisuje jedną lub więcej zmiennych objaśniających, w oparciu o pewien projekt randomizacji. W tym kontekście chcesz wiedzieć, dlaczego używamy modelu, który traktuje zmienne objaśniające jako znane stałe, zamiast traktować je jako zmienne losowe z rozkładu próbkowania narzuconego przez randomizację. (Twoje pytanie jest szersze niż to, ale wydaje się, że dotyczy to przede wszystkim komentarza, więc odpowiem na to pytanie).
Jest to normalny przypadek, który dotyczy RCT z wykorzystaniem technik regresji. Oczywiście istnieją sytuacje, w których mamy inne interesy i rzeczywiście możemy chcieć uwzględnić niepewność co do zmiennych wyjaśniających. Włączenie niepewności do zmiennych objaśniających występuje zwykle w dwóch przypadkach:
(1) Kiedy wychodzimy poza analizę regresji i przechodzimy do analizy wielowymiarowej, wówczas interesuje nas wspólny rozkład zmiennych objaśniających i odpowiedzi, a nie tylko rozkład warunkowy tych drugich, biorąc pod uwagę te pierwsze. Mogą istnieć aplikacje, w których leży to w naszym interesie, dlatego wychodzimy poza analizę regresji i włączamy informacje o rozkładzie zmiennych objaśniających.
(2) W niektórych zastosowaniach regresyjnych interesujemy się rozkładem warunkowym zmiennej odpowiedzi zależnym od podstawowej nieobserwowanej zmiennej objaśniającej, w której zakładamy, że obserwowane zmienne objaśniające były obarczone błędem („błędy w zmiennych”). W tym przypadku uwzględniamy niepewność poprzez „błędy w zmiennych”. Powodem tego jest to, że nasze zainteresowanie tymi przypadkami leży w rozkładzie warunkowym , uwarunkowanym nieobserwowaną zmienną bazową .
Zauważ, że oba te przypadki są matematycznie bardziej skomplikowane niż analiza regresji, więc jeśli uda nam się uniknąć analizy regresji, jest to ogólnie rzecz biorąc preferowane. W każdym razie, w większości zastosowań analizy regresji, celem jest wnioskowanie o warunkowym rozkładzie odpowiedzi, biorąc pod uwagę obserwowalne zmienne objaśniające, aby uogólnienia te stały się niepotrzebne.
źródło
Odpowiedziałem już na podobne pytanie: Jaka jest różnica między uzależnieniem od regresorów a traktowaniem ich jako ustalonych? , więc tutaj skopiuję część mojej odpowiedzi:
W zaprojektowanych eksperymentach jego założenie przeważnie się utrzyma, często bez danych obserwacyjnych. Niektóre przykłady problemów to: regresja z opóźnionymi odpowiedziami jako predyktorami. Uzależnienie od predyktorów w tym przypadku będzie również zależeć od odpowiedzi! (Dodam więcej przykładów).
Ten argument separacji jest pomocny również dlatego, że wskazuje na przypadki, w których nie można go użyć, na przykład regresję z opóźnionymi odpowiedziami jako predyktorami.
źródło