Czy szacunki współczynników regresji są nieskorelowane?

11

Rozważ prostą regresję (nie zakłada się normalności): gdzie jest ze średnią i odchyleniem standardowym . Są najmniej kwadratowe Szacunki i nieskorelowane?

Yi=a+bXi+ei,
ei0σab
arnab
źródło
2
Co myślisz? en.wikipedia.org/wiki/Ordinary_least_squares , sekcja „Właściwości próbki skończonej”. Odpowiedzi na to pytanie udzielono wiele razy na tej stronie.
mpiktas

Odpowiedzi:

15

Jest to ważna kwestia przy projektowaniu eksperymentów, w których pożądane może być brak (lub bardzo mała) korelacja między szacunkami i . Taki brak korelacji można osiągnąć kontrolując wartości .a^b^Xi


Aby przeanalizować wpływ na oszacowania, wartości (które są wektorami rzędów o długości ) są montowane pionowo w macierzy , macierzy projektowej, mają tyle wierszy, ile jest danych i (oczywiście ) dwie kolumny. Odpowiednie są złożone w jeden długi (kolumnowy) wektor . W tych kategoriach, pisząc dla zmontowanych współczynników, model jestXi(1,Xi)2XYiyβ=(a,b)

E(Y)=Xβ

jest (zazwyczaj) zakłada się niezależnymi zmiennymi losowymi których odchylenia są stałe z nieznanych . Za obserwacje zależne uważa się jedną realizację losowej zmiennej o wartości wektorowej .Yiσ2σ>0yY

Rozwiązaniem OLS jest

β^=(XX)1Xy,

zakładając, że istnieje odwrotność macierzy. Zatem stosując podstawowe właściwości mnożenia macierzy i kowariancji,

Cov(β^)=Cov((XX)1XY)=((XX)1Xσ2X(XX)1)=σ2(XX)1.

Macierz ma tylko dwa wiersze i dwie kolumny, odpowiadające parametrom modelu . Korelacja z jest proporcjonalny do elementów niediagonalnych które z reguły Cramera są proporcjonalne do iloczyn skalarny dwóch kolumnach . Ponieważ jedna z kolumn ma wszystkie s, a iloczyn iloczynu z drugą kolumną (składającą się z ) jest ich sumą, znajdujemy(XX)1(a,b)a^b^(XX)1,X1Xi

a^ i są nieskorelowane, jeśli tylko suma (lub równoważnie średnia) wynosi zero.b^Xi

Ten warunek ortogonalności często osiąga się przez recentering się (poprzez odjęcie ich średnią od siebie). Chociaż nie zmieni to szacowanego nachylenia , zmienia szacowany przecięcie . To, czy jest to ważne, zależy od aplikacji.Xib^a^


Ta analiza dotyczy regresji wielokrotnej: macierz projektowa będzie mieć kolumn dla zmiennych niezależnych (dodatkowa kolumna składa się z s), a będzie wektorem długości , ale w przeciwnym razie wszystko przebiega tak jak poprzednio. p+1p1βp+1

W języku konwencjonalnym dwie kolumny są nazywane ortogonalnymi, gdy ich iloczyn iloczynu wynosi zero. Gdy jedna kolumna (powiedzmy kolumnie ) jest prostopadła do pozostałych kolumnach, to łatwo wykazać algebraiczne, że wszystkie wpisy niediagonalnych w rzędzie i kolumny z są zerowe (to znaczy, komponenty i dla wszystkich są zerowe). W konsekwencji,XXiii(XX)1ijjiji

Dwa oszacowania współczynnika regresji wielokrotnej i są nieskorelowane, ilekroć jedna (lub obie) odpowiednich kolumn macierzy projektowej są ortogonalne względem wszystkich innych kolumn.β^iβ^j

Wiele standardowych projektów eksperymentalnych polega na wyborze wartości zmiennych niezależnych, aby kolumny były wzajemnie prostopadłe. To „oddziela” otrzymane szacunki, gwarantując - zanim jakiekolwiek dane zostaną zebrane! - że oszacowania będą nieskorelowane. (Gdy odpowiedzi mają rozkład normalny, oznacza to, że szacunki będą niezależne, co znacznie upraszcza ich interpretację).

Whuber
źródło
Odpowiedź brzmi: „[...] nie-ukośne elementy, które są tylko iloczynami kropkowymi dwóch kolumn X”. Dotyczy to jednak , a nie ? XX(XX)1
Heisenberg
@Heisenberg To dobra uwaga. Nie byłem tego pewien. W przypadku dwóch kolumn nie ma dwuznaczności, ale muszę pomyśleć, jak poprawić prezentację w przypadku większej liczby kolumn.
whuber
@Heisenberg Jestem wdzięczny za twoją spostrzegawczą obserwację: pozwoliło mi to poprawić istotny błąd w dyskusji na temat sprawy regresji wielokrotnej.
whuber