Jaka jest dokładna formuła zastosowana w R lm()
dla skorygowanego kwadratu R? Jak mogę to zinterpretować?
Skorygowane formuły r-kwadrat
Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R.
- Wzór Wherry:
- Wzór McNemara:
- Wzór Pański:
- Wzór Steina:
Opisy podręczników
- Zgodnie z podręcznikiem Fielda, Discovering Statistics using R (2012, s. 273) R używa równania Wherry, która „mówi nam, ile wariancji Y można by uwzględnić, gdyby model został wyprowadzony z populacji, z której pobrano próbkę”. Nie podaje wzoru dla Wherry. Zaleca stosowanie formuły Stein (ręcznie), aby sprawdzić, jak dobrze model sprawdza krzyżowo.
- Kleiber / Zeileis, Applied Econometrics with R (2008, s. 59) twierdzą, że to „skorygowany R-kwadrat Theila” i nie mówią dokładnie, jak jego interpretacja różni się od wielokrotności R-kwadrat.
- Dalgaard, Introductory Statistics with R (2008, s. 113) pisze, że „jeżeli pomnożysz [skorygowany R-kwadrat] przez 100%, można to interpretować jako„ zmniejszenie wariancji% ”. Nie mówi, która to formuła odpowiada.
Wcześniej myślałem i czytałem szeroko, że R-kwadrat karze za dodanie dodatkowych zmiennych do modelu. Teraz stosowanie tych różnych formuł wydaje się wymagać różnych interpretacji. Przyjrzałem się również pokrewnemu pytaniu na temat przepełnienia stosu ( jaka jest różnica między wielokrotnym R-kwadratem i skorygowanym R-kwadratem w regresji pojedynczego wariantu najmniejszych kwadratów? ) Oraz słownik statystyczny szkoły Wharton w UPenn .
pytania
- Który wzór stosuje się do skorygowanego r-kwadrat przez R
lm()
? - Jak mogę to zinterpretować?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
:, gdzie ans $ r.squared = R ^ 2; n = n, rdf = resztkowe df, df.int = przechwytywanie df (0 lub 1).Odpowiedzi:
1. Jakiej formuły używa
lm
R dla skorygowanego r-kwadratu?Jak już wspomniano, wpisanie
summary.lm
da ci kod, którego R używa do obliczania skorygowanego kwadratu R. Wyodrębniając najbardziej odpowiednią linię, którą otrzymujesz:co w notacji matematycznej odpowiada:
zakładając, że istnieje punkt przecięcia (tj.n p
df.int=1
), jest wielkością próby, a jest liczbą predyktorów. Tak więc twój błąd stopni swobody (tj. ) Jest równy .prdf
n-p-1
Formuła odpowiada etykiecie Yin and Fan (2001) Wherry Formula-1 (najwyraźniej istnieje inna mniej popularna formuła Wherry, która używa w mianowniku zamiast ). Sugerują, że najczęściej występującymi nazwami w kolejności występowania są „formuła Wherry”, „Ezekiel formlua”, „formuła Wherry / McNemar” i „formuła Cohen / Cohen”.n - p - 1n - p n - p - 1
2. Dlaczego istnieje tak wiele skorygowanych wzorów r-kwadratowych?
ρ 2 ρ 2R2)djot ma na celu oszacowanie , odsetka wariancji wyjaśnionego w populacji równaniem regresji populacji. Chociaż jest to wyraźnie związane z wielkością próby i liczbą predyktorów, to, który jest najlepszym estymatorem, jest mniej jasny. Zatem masz badania symulacyjne, takie jak Yin i Fan (2001), które oceniały różne skorygowane formuły r-kwadratowe pod względem tego, jak dobrze oceniają (zobacz to pytanie w celu dalszej dyskusji ).ρ2) ρ2)
Zobaczysz ze wszystkimi formułami, różnica między i zmniejsza się wraz ze wzrostem wielkości próbki. Różnica zbliża się do zera, gdy wielkość próby zmierza do nieskończoności. Różnica zmniejsza się również przy mniejszej liczbie predyktorów.R 2 a d jR2) R2)djot
3. Jak interpretować ?R2)djot
Referencje
źródło
Jeśli chodzi o twoje pierwsze pytanie: jeśli nie wiesz, jak to się oblicza, spójrz na kod! Jeśli wpiszesz
summary.lm
w konsoli, otrzymasz kod dla tej funkcji. Jeżeli odtłuszczone throught kodu znajdziesz wiersz:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. Jeśli spojrzysz na niektóre linie powyżej tej linii, zauważysz, że:ans$r.squared
: jest twoimn
to liczba reszt = liczba obserwacjidf.int
wynosi 0 lub 1 (w zależności od tego, czy masz przechwytywanie)rdf
są twoje pozostałe dfPytanie 2: Z Wikipedii: „Skorygowana jest modyfikacją która dostosowuje się do liczby terminów wyjaśniających w modelu. „R2) R2)
źródło