Funkcja lm w R może wydrukować szacunkową kowariancję współczynników regresji. Co dają nam te informacje? Czy możemy teraz lepiej interpretować model lub diagnozować problemy, które mogą występować w modelu?
13
Funkcja lm w R może wydrukować szacunkową kowariancję współczynników regresji. Co dają nam te informacje? Czy możemy teraz lepiej interpretować model lub diagnozować problemy, które mogą występować w modelu?
Odpowiedzi:
Najbardziej podstawowym zastosowaniem macierzy kowariancji jest uzyskanie standardowych błędów oszacowań regresji. Jeśli badacz jest zainteresowany jedynie standardowymi błędami poszczególnych parametrów regresji, może po prostu wziąć pierwiastek kwadratowy przekątnej, aby uzyskać poszczególne standardowe błędy.
Jednak często możesz być zainteresowany liniową kombinacją parametrów regresji. Na przykład, jeśli masz zmienną wskaźnikową dla danej grupy, możesz zainteresować się średnią grupy, która byłaby
Następnie, aby znaleźć błąd standardowy szacowanej średniej dla tej grupy, musiałbyś
gdzie jest wektorem kontrastów, a jest macierzą kowariancji. W naszym przypadku, jeśli mamy tylko zmienną towarzyszącą „grp”, to ( dla przecięcia, dla przynależności do grupy).S X = ( 1 , 1 ) 1 1X S. X= ( 1 , 1 ) 1 1
Co więcej, macierz kowariancji (lub więcej, macierz korelacji, która jest jednoznacznie identyfikowana z macierzy kowariancji, ale nie odwrotnie) może być bardzo przydatna w niektórych modelach diagnostycznych. Jeśli dwie zmienne są wysoce skorelowane, jednym ze sposobów myślenia o tym jest to, że model ma problem z ustaleniem, która zmienna jest odpowiedzialna za efekt (ponieważ są one tak ściśle powiązane). Może to być pomocne w wielu różnych przypadkach, takich jak wybór podzbiorów zmiennych towarzyszących do zastosowania w modelu predykcyjnym; jeśli dwie zmienne są wysoce skorelowane, możesz chcieć użyć tylko jednej z dwóch w modelu predykcyjnym.
źródło
Istnieją dwa „rodzaje” współczynników regresji:
Teraz zastanów się, co oznacza kowariancja. Weźmy dowolne dwie zmienne losowe i . Jeślijest wysoka, to za każdym razem, gdy narysujesz dużą wartość bezwzględną , możesz również oczekiwać, że narysujesz dużą wartość bezwzględną w tym samym kierunku. Zauważ, że „wysoki” tutaj odnosi się do wielkości zmienności i , jak wskazano w komentarzach.Y | C o v ( X , Y ) | X T X TX Y | C o v ( X, Y) | X Y X Y
(Szacowana) kowariancja dwóch współczynników regresji jest kowariancją szacunków , . Jeśli kowariancja między szacowanymi współczynnikami i jest wysoka, to w każdej próbce, w której jest wysoki, można również oczekiwać, że będzie wysoki. W bardziej bayesowskim sensie zawiera informacje o .b b1 b2) b1 b2) b1 b2)
Zauważ jeszcze raz, że „wysoki” jest względny. Tutaj „ jest wysoki” oznacza, że „ jest wysoki w stosunku do standardowego błędu”, a ich kowariancja jest „wysoka” oznacza „wysoka w stosunku do iloczynu ich standardowych błędów”. Jednym ze sposobów na złagodzenie tych interpretacyjnych czkawek jest ustandaryzowanie każdego wejścia regresji poprzez podzielenie przez odchylenie standardowe (lub w niektórych przypadkach dwa odchylenia standardowe).b1 b1
Jeden użytkownik na tej stronie opisał jako „trochę krówki”, ale nie do końca się z tym zgadzam. Po pierwsze, możesz użyć tej interpretacji, aby wymyślić pouczające priory w regresji bayesowskiej.C o v ( b1, b2))
Jeśli chodzi o to, do czego jest to właściwie wykorzystane, odpowiedź Cliff AB jest dobrym podsumowaniem.
źródło