Jaka jest skorygowana formuła R-kwadrat w lm w R i jak należy ją interpretować?

35

Jaka jest dokładna formuła zastosowana w R lm() dla skorygowanego kwadratu R? Jak mogę to zinterpretować?

Skorygowane formuły r-kwadrat

Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R.

Wzór Wherry: $1-(1-R^2)\frac{(n-1)}{(n-v)}$
Wzór McNemara: $1-(1-R^2)\frac{(n-1)}{(n-v-1)}$
Wzór Pański: $1-(1-R^2)\frac{(n+v-1)}{(n-v-1)}$
Wzór Steina: $1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2)$

Opisy podręczników

Zgodnie z podręcznikiem Fielda, Discovering Statistics using R (2012, s. 273) R używa równania Wherry, która „mówi nam, ile wariancji Y można by uwzględnić, gdyby model został wyprowadzony z populacji, z której pobrano próbkę”. Nie podaje wzoru dla Wherry. Zaleca stosowanie formuły Stein (ręcznie), aby sprawdzić, jak dobrze model sprawdza krzyżowo.
Kleiber / Zeileis, Applied Econometrics with R (2008, s. 59) twierdzą, że to „skorygowany R-kwadrat Theila” i nie mówią dokładnie, jak jego interpretacja różni się od wielokrotności R-kwadrat.
Dalgaard, Introductory Statistics with R (2008, s. 113) pisze, że „jeżeli pomnożysz [skorygowany R-kwadrat] przez 100%, można to interpretować jako„ zmniejszenie wariancji% ”. Nie mówi, która to formuła odpowiada.

Wcześniej myślałem i czytałem szeroko, że R-kwadrat karze za dodanie dodatkowych zmiennych do modelu. Teraz stosowanie tych różnych formuł wydaje się wymagać różnych interpretacji. Przyjrzałem się również pokrewnemu pytaniu na temat przepełnienia stosu ( jaka jest różnica między wielokrotnym R-kwadratem i skorygowanym R-kwadratem w regresji pojedynczego wariantu najmniejszych kwadratów? ) Oraz słownik statystyczny szkoły Wharton w UPenn .

pytania

Który wzór stosuje się do skorygowanego r-kwadrat przez R lm() ?
Jak mogę to zinterpretować?

r regression r-squared lm shrinkage gung - Przywróć Monikę
źródło

8

from summary.lm () ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf):, gdzie ans $ r.squared = R ^ 2; n = n, rdf = resztkowe df, df.int = przechwytywanie df (0 lub 1).

EDi

Podam tutaj odpowiedź na prawdziwy problem, którym nie jest „jaki rodzaj R ^ 2 ...”. Informacje, których brakuje Ci (i wielu innym): wszystkie pakiety R, nawet rdzeń, udostępniają kod źródłowy. Nawet rzeczy skompilowane w dystrybucjach są dostępne w {packagenames} .tar.gz w CRAN lub innym repozytorium.

Carl Witthoft

OP tutaj: Dziękujemy za ten wspaniały wkład. Co powiesz na moje drugie pytanie: Jak mogę to zinterpretować? Czytałem tak wiele różnych interpretacji Adj. Kwadrat R, który czasem wydaje się być oparty na formule, która może nie należeć do Wherry?

29

1. Jakiej formuły używa `lm`R dla skorygowanego r-kwadratu?

Jak już wspomniano, wpisanie summary.lmda ci kod, którego R używa do obliczania skorygowanego kwadratu R. Wyodrębniając najbardziej odpowiednią linię, którą otrzymujesz:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

co w notacji matematycznej odpowiada:

R_{za re jot}^{2)} = 1 - (1 - R^{2)}) \frac{n - 1}{n - p - 1}

$R^2_{adj} = 1 - (1 - R^2) \frac{n-1}{n-p-1}$

zakładając, że istnieje punkt przecięcia (tj. df.int=1), jest wielkością próby, a jest liczbą predyktorów. Tak więc twój błąd stopni swobody (tj. ) Jest równy . $n$ $p$ rdfn-p-1

Formuła odpowiada etykiecie Yin and Fan (2001) Wherry Formula-1 (najwyraźniej istnieje inna mniej popularna formuła Wherry, która używa w mianowniku zamiast ). Sugerują, że najczęściej występującymi nazwami w kolejności występowania są „formuła Wherry”, „Ezekiel formlua”, „formuła Wherry / McNemar” i „formuła Cohen / Cohen”. $n-p$ $n-p-1$

2. Dlaczego istnieje tak wiele skorygowanych wzorów r-kwadratowych?

$R^2_{adj}$ ma na celu oszacowanie , odsetka wariancji wyjaśnionego w populacji równaniem regresji populacji. Chociaż jest to wyraźnie związane z wielkością próby i liczbą predyktorów, to, który jest najlepszym estymatorem, jest mniej jasny. Zatem masz badania symulacyjne, takie jak Yin i Fan (2001), które oceniały różne skorygowane formuły r-kwadratowe pod względem tego, jak dobrze oceniają (zobacz to pytanie w celu dalszej dyskusji ). $\rho^2$ $\rho^2$

Zobaczysz ze wszystkimi formułami, różnica między i zmniejsza się wraz ze wzrostem wielkości próbki. Różnica zbliża się do zera, gdy wielkość próby zmierza do nieskończoności. Różnica zmniejsza się również przy mniejszej liczbie predyktorów. $R^2$ $R^2_{adj}$

3. Jak interpretować ? $R^2_{adj}$

$R^2_{adj}$ jest oszacowaniem odsetka wariancji wyjaśnionego równaniem prawdziwej regresji w populacji . Zazwyczaj byłbyś zainteresowany gdzie jesteś zainteresowany teoretyczną liniową prognozą zmiennej. W przeciwieństwie do tego, jeśli bardziej interesuje cię przewidywanie przy użyciu równania regresji próbki, tak często dzieje się w zastosowanych ustawieniach, wtedy pewna forma potwierdzonej krzyżowo byłaby bardziej odpowiednia. $\rho^2$ $\rho^2$ $R^2$

Referencje

Yin, P. i Fan, X. (2001). Szacowanie skurczu w regresji wielokrotnej: porównanie różnych metod analitycznych. The Journal of Experimental Education, 69 (2), 203-224. PDF $R^2$

Jeromy Anglim
źródło

9

Jeśli chodzi o twoje pierwsze pytanie: jeśli nie wiesz, jak to się oblicza, spójrz na kod! Jeśli wpiszesz summary.lmw konsoli, otrzymasz kod dla tej funkcji. Jeżeli odtłuszczone throught kodu znajdziesz wiersz: ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf). Jeśli spojrzysz na niektóre linie powyżej tej linii, zauważysz, że:

ans$r.squared: jest twoim $R^2$
n to liczba reszt = liczba obserwacji
df.int wynosi 0 lub 1 (w zależności od tego, czy masz przechwytywanie)
rdf są twoje pozostałe df

Pytanie 2: Z Wikipedii: „Skorygowana jest modyfikacją która dostosowuje się do liczby terminów wyjaśniających w modelu. „ $R^2$ $R^2$

EDi
źródło