Jaka jest interpretacja kowariancji współczynników regresji?

13

Funkcja lm w R może wydrukować szacunkową kowariancję współczynników regresji. Co dają nam te informacje? Czy możemy teraz lepiej interpretować model lub diagnozować problemy, które mogą występować w modelu?

mss
źródło
1
Taka sama interpretacja jak wszystkie inne kowariancje --- kowariacja liniowa? Głównym zastosowaniem jest obliczenie wariancji wybranych kontrastów będących przedmiotem zainteresowania, na przykład w celu przetestowania kontrastów.
kjetil b halvorsen

Odpowiedzi:

20

Najbardziej podstawowym zastosowaniem macierzy kowariancji jest uzyskanie standardowych błędów oszacowań regresji. Jeśli badacz jest zainteresowany jedynie standardowymi błędami poszczególnych parametrów regresji, może po prostu wziąć pierwiastek kwadratowy przekątnej, aby uzyskać poszczególne standardowe błędy.

Jednak często możesz być zainteresowany liniową kombinacją parametrów regresji. Na przykład, jeśli masz zmienną wskaźnikową dla danej grupy, możesz zainteresować się średnią grupy, która byłaby

β0+βgrp .

Następnie, aby znaleźć błąd standardowy szacowanej średniej dla tej grupy, musiałbyś

XSX ,

gdzie jest wektorem kontrastów, a jest macierzą kowariancji. W naszym przypadku, jeśli mamy tylko zmienną towarzyszącą „grp”, to ( dla przecięcia, dla przynależności do grupy).S X = ( 1 , 1 ) 1 1XSX=(1,1)11

Co więcej, macierz kowariancji (lub więcej, macierz korelacji, która jest jednoznacznie identyfikowana z macierzy kowariancji, ale nie odwrotnie) może być bardzo przydatna w niektórych modelach diagnostycznych. Jeśli dwie zmienne są wysoce skorelowane, jednym ze sposobów myślenia o tym jest to, że model ma problem z ustaleniem, która zmienna jest odpowiedzialna za efekt (ponieważ są one tak ściśle powiązane). Może to być pomocne w wielu różnych przypadkach, takich jak wybór podzbiorów zmiennych towarzyszących do zastosowania w modelu predykcyjnym; jeśli dwie zmienne są wysoce skorelowane, możesz chcieć użyć tylko jednej z dwóch w modelu predykcyjnym.

Cliff AB
źródło
Dziękuję za wyjaśnienie. W ostatnim akapicie opisujesz problemy, które mogą powstać, gdy zmienne niezależne są wysoce współliniowe. Wydaje się, że łatwiej byłoby spojrzeć na kowariancję / korelację rzeczywistych niż . we wzorze znajduje się odwrotność. p V R ( β ) = E ( ε 2 ) ( X ' X ) - 1Xβ
V.zar(β^)=mi(ε^2))(XX)-1
mss
8

Istnieją dwa „rodzaje” współczynników regresji:

  1. „Prawdziwe” współczynniki regresji (zwykle oznaczane ), które opisują podstawowy proces generowania danych. Są to stałe liczby lub „parametry”. Przykładem może być prędkość światła , która (zakładamy) jest zawsze taka sama wszędzie w dostępnym wszechświecie.cβdo
  2. Szacowane współczynniki regresji (zwykle oznaczane jako lub ), które są obliczane na podstawie próbek danych. Próbki to zbiory zmiennych losowych, więc oszacowane współczynniki regresji są również zmiennymi losowymi. Przykładem może być oszacowanie uzyskane w eksperymencie.β Cbβ^do

Teraz zastanów się, co oznacza kowariancja. Weźmy dowolne dwie zmienne losowe i . Jeślijest wysoka, to za każdym razem, gdy narysujesz dużą wartość bezwzględną , możesz również oczekiwać, że narysujesz dużą wartość bezwzględną w tym samym kierunku. Zauważ, że „wysoki” tutaj odnosi się do wielkości zmienności i , jak wskazano w komentarzach.Y | C o v ( X , Y ) | X T X TXY|doov(X,Y)|XYXY

(Szacowana) kowariancja dwóch współczynników regresji jest kowariancją szacunków , . Jeśli kowariancja między szacowanymi współczynnikami i jest wysoka, to w każdej próbce, w której jest wysoki, można również oczekiwać, że będzie wysoki. W bardziej bayesowskim sensie zawiera informacje o .bb1b2)b1b2)b1b2)

Zauważ jeszcze raz, że „wysoki” jest względny. Tutaj „ jest wysoki” oznacza, że ​​„ jest wysoki w stosunku do standardowego błędu”, a ich kowariancja jest „wysoka” oznacza „wysoka w stosunku do iloczynu ich standardowych błędów”. Jednym ze sposobów na złagodzenie tych interpretacyjnych czkawek jest ustandaryzowanie każdego wejścia regresji poprzez podzielenie przez odchylenie standardowe (lub w niektórych przypadkach dwa odchylenia standardowe).b1b1

Jeden użytkownik na tej stronie opisał jako „trochę krówki”, ale nie do końca się z tym zgadzam. Po pierwsze, możesz użyć tej interpretacji, aby wymyślić pouczające priory w regresji bayesowskiej.doov(b1,b2))

Jeśli chodzi o to, do czego jest to właściwie wykorzystane, odpowiedź Cliff AB jest dobrym podsumowaniem.

Shadowtalker
źródło
bjabjotjajot
1
@ Whuber dzięki, a ja w pewnym momencie napisałem „korelację”.
Posprzątam,
Ponieważ mogę nie wrócić do tego wątku przez jakiś czas, +1 z góry za zmiany!
whuber
popełniłem ten sam błąd w moim opisie!
Cliff AB
@ Whuber teraz właściwie zgaduję, jak rozumiem kowariancję. Czy moim problemem jest to, że nie podkreśliłem, że skale mogą być inne, czy też brakuje mi czegoś innego? Natknąłem się na twoje wyjaśnienie „skrzynek” i nie rozumiem, co to może być
shadowtalker