Bardzo podstawowe pytanie dotyczące regresji OLS
- uruchomić regresję OLS y ~ x1, mamy , powiedzmy 0.3
- uruchomić regresję OLS y ~ x2, mamy kolejne , powiedzmy 0,4
- teraz przeprowadzamy regresję y ~ x1 + x2, jaką wartością może być R dla tej regresji?
Myślę, że jasne jest, że dla regresji wielokrotnej nie powinien być mniejszy niż 0,4, ale czy jest możliwe, aby była większa niż 0,7?
regression
multiple-regression
least-squares
r-squared
Olivier Ma
źródło
źródło
Odpowiedzi:
Drugi regresor może po prostu nadrobić to, czego pierwszy nie zdołał wyjaśnić w zmiennej zależnej. Oto numeryczny przykład:
Generujyi=0.5x1i+ui ui N(0,1)
x1
jako standardowy normalny regresor, wielkość próby 20. Bez utraty ogólności weź , gdzie jest również . Teraz weź drugi regresor jako po prostu różnicę między zmienną zależną a pierwszym regresorem.x2
źródło
x1 + x2 = y
tosummary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
powinno być nie mniej niż 1., ale najwyraźniej się mylę ...Poza dolną granicą, która wynosi 0,3 lub 0,4 w zależności od tego, która zmienna wchodzi do modelu jako pierwsza, niewiele można powiedzieć. Ile wzrasta w dużym stopniu zależy od informacji, że druga zmienna doprowadza do modelu. Przez informacje rozumiemy oczywiście wyjaśnioną zmienność odpowiedzi.R2
Jest jedna koncepcja, która jest krytyczna w tym względzie i jest to korelacja między predyktorami. Jeśli korelacja jest duża, nowa zmienna nie tylko nie wniesie niczego do modelu, ale także skomplikuje wnioskowanie dla istniejących zmiennych, ponieważ oszacowania staną się nieprecyzyjne (wielokoliniowość). Właśnie dlatego wolelibyśmy, aby nowa zmienna była prostopadła do innych. Szanse są niewielkie w badaniach obserwacyjnych, ale można to osiągnąć w kontrolowanych warunkach, np. Podczas konstruowania własnego eksperymentu.
Ale jak dokładnie obliczyć nowe informacje, które zmienna wprowadzi do modelu? Jednym powszechnie stosowanym środkiem, który bierze pod uwagę wszystkie te są częściowy . Jeśli znasz ANOVA modelu liniowego, jest to nic innego jak proporcjonalne zmniejszenie sumy błędów kwadratów, które osiągniesz, włączając tę zmienną do swojego modelu. Pożądane są wysokie wartości procentowe, a niskie prawdopodobnie skłonią cię do zastanowienia się, czy to właściwy sposób działania.R2
Tak więc, jak zauważył @cardinal w komentarzach, twój nowy współczynnik determinacji może być tak wysoki jak 1. Może również wynosić nawet 0,00001. Nie ma sposobu, aby powiedzieć bez dodatkowych informacji.
źródło
Współczynnik determinacji w wielokrotnej regresji liniowej: W wielokrotnej regresji liniowej współczynnik determinacji można zapisać w kategoriach korelacji par dla zmiennych za pomocą postaci kwadratowej:
gdzie to wektor korelacji między wektorem odpowiedzi a każdym z wektorów objaśniających, a jest macierzą korelacji między wektorami objaśniającymi (więcej informacji na ten temat można znaleźć w powiązanym pytaniu ). W przypadku regresji dwuwymiarowej masz:ry,x rx,x
W swoim pytaniu nie określiłeś kierunków korelacji jednowymiarowych, więc bez utraty ogólności oznaczymy . Podstawienie wartości oraz daje:D≡sgn(rY,X1)⋅sgn(rY,X2)∈{−1,+1} r2Y,X1=0.3 r2Y,X2=0.4
Możliwe jest, że , ponieważ możliwe jest, że łączna informacja z dwóch zmiennych jest większa niż suma jej części. To interesujące zjawisko nazywa się „ulepszeniem” (patrz np. Lewis i Escobar 1986 ).R2>0.7
źródło