W przypadku prostej regresji liniowej współczynnik regresji oblicza się bezpośrednio z macierzy wariancji-kowariancji , o gdzie jest indeksem zmiennej zależnej, a e jest indeksem zmiennej objaśniającej.C d , e de
Jeśli ktoś ma tylko macierz kowariancji, czy można obliczyć współczynniki dla modelu z wieloma zmiennymi objaśniającymi?
ETA: W przypadku dwóch zmiennych objaśniających wydaje się, że
i analogicznie dla . Nie od razu widzę, jak rozszerzyć to na trzy lub więcej zmiennych.
Odpowiedzi:
Tak, macierz kowariancji wszystkich zmiennych - objaśniająca i odpowiedź - zawiera informacje potrzebne do znalezienia wszystkich współczynników, pod warunkiem, że model przechwytujący (stały) jest uwzględniony w modelu. (Chociaż kowariancje nie podają żadnych informacji na temat stałego terminu, można je znaleźć na podstawie danych).
Analiza
Niech dane dotyczące zmiennych objaśniających być rozmieszczone w -wymiarowych wektory kolumnowe i zmiennej odpowiedzi być kolumna wektor , uważany za wykonanie zmiennej losowej . Zwykłe oszacowania metodą najmniejszych kwadratów współczynników w modelun x1,x2,…,xp y Y β^
są otrzymywane przez złożenie wektorów kolumnowych X 0 = ( 1 , 1 , … , 1 ) ′ , X 1 , … , X p w macierz n × p + 1 X i rozwiązanie układu równań liniowychp+1 X0=(1,1,…,1)′,X1,…,Xp n×p+1 X
Jest to odpowiednik systemu
Eliminacja gaussowska rozwiąże ten system. Prowadzi się ją przylegającą do matrycę 1p+1×p+1 is+1-vector11nX′X p+1 dotablicyp+1×p+2Ai zmniejszając ją. 1nX′y p+1×p+2 A
Pierwszym krokiem będzie sprawdzenie . Stwierdzając, że jest to niezerowe, przechodzi do odejmowania odpowiednich wielokrotności pierwszego wierszaAod pozostałych wierszy, aby wyzerować pozostałe wpisy w pierwszej kolumnie. Te wielokrotności będą wynosić11n(X′X)11=1nX′0X0=1 A oraz liczba odjęta od wpisuAi+1,j+1=X ′ i Xjbędzie równa ¯ X i ¯ X j. Jest to po prostu wzór na kowariancjiXíiXj. Ponadto liczba pozostała wpozycjachi+1,p+2wynosi11nX′0Xi=X¯¯¯¯i Ai+1,j+1=X′iXj X¯¯¯¯iX¯¯¯¯j Xi Xj i+1,p+2 , kowariancjaXIzy.1nX′iy−Xi¯¯¯¯¯¯y¯¯¯ Xi y
Zatem po pierwszym etapie eliminacji Gaussa układ sprowadza się do rozwiązania
i oczywiście - ponieważ wszystkie współczynniki są kowariancjami - to rozwiązanie można znaleźć na podstawie macierzy kowariancji wszystkich zmiennych.
(Gdy jest odwracalna roztwór może być napisany C - 1 ( Cov ( X ı , y ) ) " . Formuły zawarte w kwestii szczególne przypadki to, gdy p = 1 , a p = 2 wypisywanie takich preparatów wyraźnie będzie. stają się coraz bardziej złożone w miarę wzrostu p . Co więcej, są gorsze w obliczeniach numerycznych, co najlepiej przeprowadzić przez rozwiązanie układu równań niż przez odwrócenie macierzy C. )C C−1(Cov(Xi,y))′ p=1 p=2 p C
Stała termin będzie różnica pomiędzy średnią z i średnie wartości przewidywanych z szacunków, X p .y Xβ^
Przykład
Aby to zilustrować, poniższy
R
kod tworzy niektóre dane, oblicza ich kowariancje i uzyskuje oszacowania współczynnika najmniejszych kwadratów wyłącznie na podstawie tych informacji. Porównuje je z oszacowaniami uzyskanymi z estymatora najmniejszych kwadratówlm
.Dane wyjściowe pokazują zgodność między dwiema metodami:
źródło
cov(z)
y
ix
abeta.hat
.y
Ix
należą do oryginalnych danych. Czy możliwe jest wyprowadzenie przecięcia z macierzy kowariancji i samych środków? Czy możesz podać notację?