Możliwy zakres

10

Załóżmy, że są to trzy szeregi czasowe, , i $X_1$ $X_2$ $Y$

Działa zwykły regresję liniową w ~ ( ), otrzymujemy . Zwyczajne regresji liniowej ~ uzyskać . Załóżmy, że $Y$ $X_1$ $Y = b X_1 + b_0 + \epsilon$ $R^2 = U$ $Y$ $X_2$ $R^2 = V$ $U < V$

Jakie są minimalne i maksymalne możliwe wartości przy regresji ~ ( )? $R^2$ $Y$ $X_1 + X_2$ $Y = b_1 X_1 + b_2 X_2 + b_0 + \epsilon$

Uważam, że minimalna wartość powinna wynosić + mała wartość, ponieważ dodawanie nowych zmiennych zawsze zwiększa , ale nie wiem, jak obliczyć tę małą wartość, i nie wiem, jak uzyskać maksymalny zakres . $R^2$ $V$ $R^2$

regression multiple-regression r-squared Wendeta
źródło

9

1) Edycja: Komentarz Kardynała poniżej pokazuje, że prawidłowa odpowiedź do minimum pytanie . Dlatego usuwam moją „interesującą”, ale ostatecznie niepoprawną odpowiedź na tę część postu PO. $R^2$ $V$

2) Maksymalna wartość wynosi 1. Rozważ następujący przykład, który pasuje do twojego przypadku. $R^2$

x1 <- rnorm(100)
x2 <- rnorm(100)
y <- x1 + 2*x2

> summary(lm(y~x1))$r.squared
[1] 0.2378023                 # This is U
> summary(lm(y~x2))$r.squared
[1] 0.7917808                 # This is V; U < V
> summary(lm(y~x1+x2))$r.squared
[1] 1

Tutaj ustalamy wariancję na 0. Jeśli chcesz , rzeczy się trochę zmieniają. Możesz uzyskać dowolnie blisko 1, zmniejszając , ale jak w przypadku minimalnego problemu, nie możesz się tam dostać, więc nie ma maksimum. 1 staje się supremum , ponieważ zawsze jest większe niż ale jest także granicą, ponieważ . $\epsilon$ $\sigma^2_\epsilon > 0$ $R^2$ $\sigma^2_\epsilon$ $R^2$ $\sigma^2_\epsilon \to 0$

łucznik
źródło

2

(+1) Niektóre komentarze: To dobra odpowiedź; To ciekawe, że wziąłeś się asymptotyczne podejście natomiast nie jest jasne, czy PO był zainteresowany tym, czy możliwe, jest stałym jeden (lub oba). Ta odpowiedź jest trochę niespójna z ograniczeniem OP, że , a jeśli lub dla niektórych , na przykład, wówczas minimalna dla wszystkie ustalone rozmiary próbek wynoszą dokładnie . (Przepraszam patologii tych przykładów.) Ponadto, OLS jest nie koniecznie zgodne nieobecne dodatkowe ograniczenia dotyczące czynników predykcyjnych. :)

n

$n$

U < V

$U < V$

X_{1} = 0

$X_1 = 0$

X_{1} = a 1

$X_1 = a \mathbf{1}$

a \in R

$a \in \mathbb R$

R^{2}

$R^2$

V := V (n)

$V := V(n)$

kardynał

@ cardinal - przy ponownym czytaniu nie mogę zrozumieć, dlaczego podjąłem to podejście do problemu minimalnego, kiedy wydaje się teraz oczywistą poprawną odpowiedzią i, jak domyślnie zauważyłeś, mogłem skonstruować przykład, który osiąga to w żyła części maksymalnej ... no cóż, może moje espresso tego ranka przypadkowo było bezkofeinowe. (Może powinienem też dokładniej przejrzeć moje odpowiedzi przed opublikowaniem!)

V

$V$

jbowman

Nie sądzę, że należy usunąć to, co napisałem, co ja zrobiłem znaleźć ciekawe podejście do odpowiedzi na pytanie! Chociaż wspomniane przeze mnie patologie z pewnością pozwalają na minimum , można się zastanawiać, co tak naprawdę oznacza . Drugi przykład może nie jest aż tak patologiczny, ponieważ w ogólnej wersji tego problemu rozciąga się na przypadek, w którym dowolny dodatkowy znajduje się w przestrzeni kolumn innych predyktorów. :)

R^{2}

$R^2$

X_{1} = 0

$X_1 = 0$

X_{i}

$X_i$

kardynał

1

@cardinal - dzięki! Zrekonstruuję to, może trochę bardziej formalnie, i odłożę na chwilę z powrotem na dół.

jbowman

5

Niech równa się korelację między i , równa się korelację między i i korelacji pomiędzy i . Następnie dla pełnego modelu podzielonego przez równa się $r_{1,2}$ $X_1$ $X_2$ $r_{1,Y}$ $X_1$ $Y$ $r_{2,Y}$ $X_2$ $Y$ $R^2$ $V$

(\frac{1}{(1 - r_{1, 2}^{2})}) (1 - \frac{2 \cdot r_{1, 2} \cdot r_{1, Y}}{r_{2, Y}} + \frac{U}{V}) .

$\left(\frac{1}{(1 - r_{1,2}^2)}\right) \left(1 - \frac{2 \cdot r_{1,2} \cdot r_{1,Y}}{r_{2,Y}} + \frac{U}{V}\right).$

Zatem dla pełnego modelu jest równe tylko wtedy, gdy i lub $R^2$ $V$ $r_{1,2} = 0$ $r_{1,Y}^2 = U = 0$

r_{1, 2}^{2} = \frac{2 \cdot r_{1, 2} \cdot r_{1, Y}}{r_{2, Y}} - \frac{U}{V} .

$r_{1,2}^2 = \frac{2\cdot r_{1,2} \cdot r_{1,Y}}{r_{2,Y}} - \frac{U}{V}.$

Jeśli , dla modelu pełnego równa . $r_{1,2} = 0$ $R^2$ $U + V$

Margot
źródło

(+1) Urocze. Witamy na stronie. Rozważ zarejestrowanie konta, aby móc w pełni uczestniczyć. Później będę musiał przyjrzeć się temu wyrażeniu nieco bliżej. :)

kardynał

4

Bez ograniczeń dla i , minimum to , a następnie maksimum to mniejsze . Jest tak, ponieważ dwie części zmienne mogą być idealnie skorelowane (w tym przypadku dodanie drugą zmienną nie zmienia w ogóle) lub mogą być ortogonalne w którym to przypadku w tym zarówno powoduje . W komentarzach słusznie wskazano, że wymaga to również, aby każdy z nich był prostopadły do , wektora kolumny 1s. $U$ $V$ $V$ $\min(V + U, 1)$ $R^2$ $U + V$ $\mathbf{1}$

Dodano ograniczenie . Nadal jednak możliwe jest, że . To znaczy, , w takim przypadku . Wreszcie możliwe jest, że więc górna granica to wciąż . $U < V \implies X_{1} \neq X_{2}$ $U = 0$ $X_{1} \perp Y$ $\min = \max = V + 0$ $X_{1} \perp X_{2}$ $\min(V + U, 1)$

Jeśli wiedziałeś więcej o związku między i , myślę, że możesz powiedzieć więcej. $X_{1}$ $X_{2}$

Jozuego
źródło

1

(+1) Należy jednak zauważyć, że nie jest (całkiem) prawdą, że jeśli i są ortogonalne, wówczas ich indywidualne wartości będą sumowane, gdy oba zostaną uwzględnione w modelu. Potrzebujemy także, aby były prostopadłe do wektora all-one . Pamiętaj, że możesz użyć na tej stronie do oznaczania matematyki. :)

X_{1}

$X_1$

X_{2}

$X_2$

R^{2}

$R^2$

1

$\mathbf 1$

L A T E X

$\LaTeX$

kardynał

To prawda. Bardzo dziękuję za komentarze i za wskazanie, że można używać . Myślałem, że może, ale próbowałem ucieczki w stylu Mathjax (i [do wstawiania / równań. Pisanie tak, jakbym robił w TeXie działało jak urok :)

L A T E X

$\LaTeX$

Joshua,

Możliwy zakres

Odpowiedzi: