Jaka jest skorygowana formuła R-kwadrat w lm w R i jak należy ją interpretować?

35

Jaka jest dokładna formuła zastosowana w R lm() dla skorygowanego kwadratu R? Jak mogę to zinterpretować?

Skorygowane formuły r-kwadrat

Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R.

  • Wzór Wherry:1-(1-R2))(n-1)(n-przeciwko)
  • Wzór McNemara:1-(1-R2))(n-1)(n-przeciwko-1)
  • Wzór Pański:1-(1-R2))(n+przeciwko-1)(n-przeciwko-1)
  • Wzór Steina:1-[(n-1)(n-k-1)(n-2))(n-k-2))(n+1)n](1-R2))

Opisy podręczników

  • Zgodnie z podręcznikiem Fielda, Discovering Statistics using R (2012, s. 273) R używa równania Wherry, która „mówi nam, ile wariancji Y można by uwzględnić, gdyby model został wyprowadzony z populacji, z której pobrano próbkę”. Nie podaje wzoru dla Wherry. Zaleca stosowanie formuły Stein (ręcznie), aby sprawdzić, jak dobrze model sprawdza krzyżowo.
  • Kleiber / Zeileis, Applied Econometrics with R (2008, s. 59) twierdzą, że to „skorygowany R-kwadrat Theila” i nie mówią dokładnie, jak jego interpretacja różni się od wielokrotności R-kwadrat.
  • Dalgaard, Introductory Statistics with R (2008, s. 113) pisze, że „jeżeli pomnożysz [skorygowany R-kwadrat] przez 100%, można to interpretować jako„ zmniejszenie wariancji% ”. Nie mówi, która to formuła odpowiada.

Wcześniej myślałem i czytałem szeroko, że R-kwadrat karze za dodanie dodatkowych zmiennych do modelu. Teraz stosowanie tych różnych formuł wydaje się wymagać różnych interpretacji. Przyjrzałem się również pokrewnemu pytaniu na temat przepełnienia stosu ( jaka jest różnica między wielokrotnym R-kwadratem i skorygowanym R-kwadratem w regresji pojedynczego wariantu najmniejszych kwadratów? ) Oraz słownik statystyczny szkoły Wharton w UPenn .

pytania

  • Który wzór stosuje się do skorygowanego r-kwadrat przez R lm() ?
  • Jak mogę to zinterpretować?
gung - Przywróć Monikę
źródło
8
from summary.lm () ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf):, gdzie ans $ r.squared = R ^ 2; n = n, rdf = resztkowe df, df.int = przechwytywanie df (0 lub 1).
EDi
Podam tutaj odpowiedź na prawdziwy problem, którym nie jest „jaki rodzaj R ^ 2 ...”. Informacje, których brakuje Ci (i wielu innym): wszystkie pakiety R, nawet rdzeń, udostępniają kod źródłowy. Nawet rzeczy skompilowane w dystrybucjach są dostępne w {packagenames} .tar.gz w CRAN lub innym repozytorium.
Carl Witthoft
OP tutaj: Dziękujemy za ten wspaniały wkład. Co powiesz na moje drugie pytanie: Jak mogę to zinterpretować? Czytałem tak wiele różnych interpretacji Adj. Kwadrat R, który czasem wydaje się być oparty na formule, która może nie należeć do Wherry?

Odpowiedzi:

29

1. Jakiej formuły używa lmR dla skorygowanego r-kwadratu?

Jak już wspomniano, wpisanie summary.lmda ci kod, którego R używa do obliczania skorygowanego kwadratu R. Wyodrębniając najbardziej odpowiednią linię, którą otrzymujesz:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

co w notacji matematycznej odpowiada:

Rzarejot2)=1-(1-R2))n-1n-p-1

zakładając, że istnieje punkt przecięcia (tj. df.int=1), jest wielkością próby, a jest liczbą predyktorów. Tak więc twój błąd stopni swobody (tj. ) Jest równy .pnprdfn-p-1

Formuła odpowiada etykiecie Yin and Fan (2001) Wherry Formula-1 (najwyraźniej istnieje inna mniej popularna formuła Wherry, która używa w mianowniku zamiast ). Sugerują, że najczęściej występującymi nazwami w kolejności występowania są „formuła Wherry”, „Ezekiel formlua”, „formuła Wherry / McNemar” i „formuła Cohen / Cohen”.n - p - 1n-pn-p-1

2. Dlaczego istnieje tak wiele skorygowanych wzorów r-kwadratowych?

ρ 2 ρ 2Rzarejot2) ma na celu oszacowanie , odsetka wariancji wyjaśnionego w populacji równaniem regresji populacji. Chociaż jest to wyraźnie związane z wielkością próby i liczbą predyktorów, to, który jest najlepszym estymatorem, jest mniej jasny. Zatem masz badania symulacyjne, takie jak Yin i Fan (2001), które oceniały różne skorygowane formuły r-kwadratowe pod względem tego, jak dobrze oceniają (zobacz to pytanie w celu dalszej dyskusji ).ρ2)ρ2)

Zobaczysz ze wszystkimi formułami, różnica między i zmniejsza się wraz ze wzrostem wielkości próbki. Różnica zbliża się do zera, gdy wielkość próby zmierza do nieskończoności. Różnica zmniejsza się również przy mniejszej liczbie predyktorów.R 2 a d jR2)Rzarejot2)

3. Jak interpretować ?Rzarejot2)

Rzarejot2) jest oszacowaniem odsetka wariancji wyjaśnionego równaniem prawdziwej regresji w populacji . Zazwyczaj byłbyś zainteresowany gdzie jesteś zainteresowany teoretyczną liniową prognozą zmiennej. W przeciwieństwie do tego, jeśli bardziej interesuje cię przewidywanie przy użyciu równania regresji próbki, tak często dzieje się w zastosowanych ustawieniach, wtedy pewna forma potwierdzonej krzyżowo byłaby bardziej odpowiednia.ρ2)ρ2)R2)

Referencje

  • Yin, P. i Fan, X. (2001). Szacowanie skurczu w regresji wielokrotnej: porównanie różnych metod analitycznych. The Journal of Experimental Education, 69 (2), 203-224. PDFR2)
Jeromy Anglim
źródło
9

Jeśli chodzi o twoje pierwsze pytanie: jeśli nie wiesz, jak to się oblicza, spójrz na kod! Jeśli wpiszesz summary.lmw konsoli, otrzymasz kod dla tej funkcji. Jeżeli odtłuszczone throught kodu znajdziesz wiersz: ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf). Jeśli spojrzysz na niektóre linie powyżej tej linii, zauważysz, że:

  • ans$r.squared: jest twoimR2)
  • n to liczba reszt = liczba obserwacji
  • df.int wynosi 0 lub 1 (w zależności od tego, czy masz przechwytywanie)
  • rdf są twoje pozostałe df

Pytanie 2: Z Wikipedii: „Skorygowana jest modyfikacją która dostosowuje się do liczby terminów wyjaśniających w modelu. „R2)R2)

EDi
źródło