Dlaczego skorygowany R-kwadrat mniejszy niż R-kwadrat, jeśli skorygowany R-kwadrat lepiej przewiduje model?

15

O ile rozumiem, wyjaśnia, jak dobrze model przewiduje obserwację. Skorygowane to takie, które uwzględnia więcej obserwacji (lub stopni swobody). Więc skorygowany lepiej przewiduje model? Dlaczego więc jest to mniej niż ? Wydaje się, że często powinno być więcej.R2R2R2R2

użytkownik59756
źródło

Odpowiedzi:

30

pokazuje zależność liniową między zmiennymi niezależnymi i zmienną zależną. Jest zdefiniowany jako 1 - S S ER2 która jest sumą błędów do kwadratu podzieloną przez całkowitą sumę kwadratów. SSTO=SSE+SSR,które są błędem całkowitym i sumą kwadratów regresji. W miarę dodawania zmiennych niezależnychSSRbędzie nadal wzrastał (a ponieważSSTOjest ustalony)SSEspadnie, aR2będzie stale wzrastał bez względu na to, jak cenne są dodane przez ciebie zmienne.1SSESSTOSSTO=SSE+SSRSSRSSTOSSER2

Skorygowana próbuje uwagę skurcz statystycznych. Modele z tonami predyktorów mają tendencję do osiągania lepszych wyników w próbce niż w przypadku testowania poza próbką. Skorygowane R 2 „karze” za dodanie dodatkowych predyktorów, które nie poprawy istniejącego modelu. Może to być pomocne w wyborze modelu. Skorygowany R 2 wyniesie R 2 dla jednej zmiennej predykcyjnych. Jak dodać zmienne, to będzie mniejszy niż R 2 .R2R2R2R2R2

Eric Peterson
źródło
Nie jest jasne, w jaki sposób skorygowany kwadrat R osiąga wskazane właściwości. To znaczy, jaka jest formuła i jak powoduje właściwości?
Alexey Voytenko
Adj R ^ 2 = 1 - ((n -1) / (n - k -1)) (1 - R ^ 2)
wspinacz górski
Gdzie k = liczba zmiennych niezależnych, n = # obserwacji
wspinacz górski
próba uwzględnienia skurczu statystycznego - być może z powodu nadmiernego dopasowania?
Richard Hardy,
-1

R ^ 2 wyjaśnia udział wariancji zmiennej zależnej (Y) wyjaśnionej przez zmienne niezależne (X) dla modelu regresji liniowej.

Po skorygowaniu R ^ 2 podaje proporcję wariancji zmiennej zależnej (Y) wyjaśnioną przez więcej niż 1 zmienną niezależną (X) dla modelu regresji liniowej.

astha gupta
źródło
1
Wprowadzane rozróżnienie między „zmiennymi niezależnymi” a „więcej niż 1 zmiennymi niezależnymi” nie jest jasne. Cytując Andy'ego od dołu: „Naprawdę nie dodajesz nowych informacji do tego, co było wcześniej”.
ameba mówi Przywróć Monikę
-2

R-Squared rośnie nawet po dodaniu zmiennych, które nie są powiązane ze zmienną zależną, ale skorygowane R-Squared dba o to, ponieważ zmniejsza się, ilekroć dodajesz zmienne, które nie są powiązane ze zmienną zależną, dlatego po rozważeniu prawdopodobne jest, że zmniejszyć.

CHRISTOPHER MBOTWA
źródło
3
Biorąc pod uwagę, że pytanie to ma już zaakceptowaną odpowiedź, powinien to być bardziej komentarz. Tak naprawdę nie dodajesz nowych informacji do tego, co było wcześniej.
Andy