Jaki jest związek między wartością R-kwadrat a wartością p w regresji?

17

tl; dr - w przypadku regresji OLS, czy wyższy R-kwadrat oznacza również wyższą wartość P? W szczególności dla jednej zmiennej objaśniającej (Y = a + bX + e), ale chciałbym również wiedzieć o n wielu zmiennych objaśniających (Y = a + b1X + ... bnX + e).

Kontekst - Przeprowadzam regresję OLS dla szeregu zmiennych i staram się opracować najlepszą objaśniającą formę funkcjonalną, tworząc tabelę zawierającą wartości R-kwadrat między liniową, logarytmiczną itp. Transformacjami każdej zmiennej objaśniającej (niezależnej) oraz zmienna odpowiedzi (zależna). To wygląda trochę jak:

Nazwa zmiennej - forma liniowa - --ln (zmienna) --exp (zmienna) - ... itd

Zmienna 1 ------- R-kwadrat ---- R-kwadrat ---- R-kwadrat -
... itd ...

Zastanawiam się, czy R-kwadrat jest właściwe, czy też wartości P byłyby lepsze. Przypuszczalnie istnieje pewien związek, ponieważ związek bardziej znaczący oznaczałby wyższą moc wyjaśniającą, ale nie jestem pewien, czy jest to prawdą w sposób rygorystyczny.

econometricstatsquestion
źródło

Odpowiedzi:

15

Odpowiedź brzmi: nie, nie ma takiej regularne relacje między oraz ogólnej regresji wartości p, ponieważ R 2 zależy w równym stopniu od wariancji zmiennych niezależnych, jak ma to miejsce na wariancji reszt (do której jest odwrotnie proporcjonalna), a użytkownik może dowolnie zmieniać wariancję zmiennych niezależnych.R2R2

Na przykład, pod uwagę dowolny zestaw danych wielowymiarowych z i indeksowania przypadki, i załóżmy, że zbiór wartości pierwszej zmiennej niezależnej, { x i 1 } , ma unikalne maksimum x oddzielone od drugiej najwyższej wartości wartością dodatnią ϵ . Zastosuj nieliniową transformację pierwszej zmiennej, która wysyła wszystkie wartości mniejsze niż((xi1,xi2,,xip,yi))i{xi1}xϵ do zakresu [ 0 , 1 ] i wysyłasam x do pewnej dużej wartości M 1 . Dla dowolnego takiego M można tego dokonać na przykład poprzez odpowiednią (skalowaną) transformację Box-Coxa x a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , więc nie mówimy o coś dziwnego lub „patologicznego”. Następnie jako Mxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))MRośnie dowolnie duża, zbliża 1 tak ściśle, jak należy, niezależnie od tego, jak złe dopasowanie jest, ponieważ wariancja reszt będzie ograniczony, natomiast wariancja pierwszej zmiennej niezależnej jest asymptotycznie proporcjonalny do M 2 .R21M2


Zamiast tego powinieneś używać testów dobroci dopasowania (wśród innych technik), aby wybrać odpowiedni model w swojej eksploracji: powinieneś martwić się o liniowość dopasowania i homoscedastyczność reszt. I nie bierz żadnych wartości p z wynikowej regresji na zaufaniu: staną się prawie bez znaczenia po przejściu tego ćwiczenia, ponieważ ich interpretacja zakłada, że ​​wybór wyrażenia zmiennych niezależnych nie zależał od wartości zmienna zależna w ogóle, co w dużym stopniu nie ma miejsca w tym przypadku.

Whuber
źródło
10

Ta odpowiedź nie dotyczy bezpośrednio głównego pytania; to nic więcej niż dodatkowe informacje, które są zbyt długie na komentarz.

Zwracam na to uwagę, ponieważ econometricstatsquestion bez wątpienia spotkać tę informację, czy coś takiego w pewnym momencie (stwierdzające, że i R 2 podobne) i zastanawiam się, czy informacje podane w innych odpowiedzi tutaj jest źle - to nie jest źle - ale myślę, warto wyjaśnić, co się dzieje.FR2

Istnieje związek w określonych okolicznościach; jeśli trzymać liczbę obserwacji i liczbę predyktory ustalonych dla danego modelu w rzeczywistości jest monotoniczna w R 2 , ponieważFR2

F=R2/(k1)(1R2)/(Nk)

(Jeśli podzielisz licznik i mianownik przez i wyciągniesz stałe w k out, możesz zobaczyć, że 1 / F 1 / R 2 - 1, jeśli utrzymasz stałą N i k .)R2k1/F1/R21Nk

Ponieważ dla stałej DF i wartości p monotonicznie podobne, R 2 i P -wartość są monotonicznie podobne.FR2p

Ale zmień prawie wszystko w modelu, a ten związek nie zachowuje się w zmienionych okolicznościach.

Na przykład, dodanie marki punktu większa, usuwając jeden sprawia, że jest mniejszy, ale robi albo mogą zwiększać lub zmniejszać R 2 , więc wygląda na to, F i R 2 nie muszą poruszać się razem, gdy dodajesz lub usuwasz dane. Dodawania zmiennej maleje ( N - k ) / ( K - 1 ) , ale zwiększa R 2 (i vice versa), więc ponownie, R 2 nie muszą być związane z(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2 kiedy to zrobisz.F

Oczywiście, gdy porównasz wartości i p pomiędzy modelami o różnych charakterystykach, ta relacja niekoniecznie zachowuje się, jak udowodnił to whuber w przypadku transformacji nieliniowych.R2p

Glen_b - Przywróć Monikę
źródło
Nie zgadzam się z tobą, ale wygląda na to, że odpowiadasz na inne pytanie niż ja. Minęło trochę czytania, ale doszedłem do wniosku, że pytanie dotyczy tego, co związek, jeśli w ogóle, posiada między i R 2 kiedy (caeteris paribus) zmienne niezależne są nieliniowo transformacji. Tylko wtedy, gdy zmienne te pozostaną niezmienione - lub co najwyżej liniowo przekształcone między sobą - możemy powiedzieć cokolwiek o takiej relacji. W tym sensie uważam, że twój kwalifikator „dla danego modelu” musi być zrozumiany. pR2
whuber
Odpowiadam na inne pytanie; i uważam, że twoja interpretacja znaczenia jest poprawna. Bardziej martwiłem się, że taki problem jak ten, który podniosłem, doprowadzi do zamieszania, jeśli nie zostanie wyjaśniony. Wszystkie wasze punkty, o ile mi wiadomo. (Teraz obawiam się, że być może moja odpowiedź nie służy wyjaśnieniu, jak się spodziewałem, ale jedynie myli problem. Czy uważasz, że istnieje odpowiednia modyfikacja, która by na to pomogła? Czy powinienem ją usunąć?)
Glen_b
Nie chciałbym, żeby został usunięty, Glen. Jeśli zamierzasz dokonać zmian, zastanów się wyraźniej wskazując, o których aspektach tego problemu piszesz ( np. Co dokładnie rozumiesz przez „dany model” i co masz na myśli o modelach o „różnych cechach”). To był duch (oparty na współpracy, nie krytyczny), w którym przedstawiłem swój komentarz.
whuber
Nie byłam przez ciebie krytykowana - wydawało się, że wyjaśniasz i nic więcej - ale potrzeba podkreślenia nieadekwatności odpowiedzi, o którą się martwiłam, zanim skomentowałeś. Niejasność „różnych cech” polega na tym, że jest to dość ogólna rzecz - różnią się znacznie od wszystkiego (podaję nawet przykłady czegoś tak prostego, jak usunięcie punktu lub dodanie zmiennej w celu zilustrowania, jak niewiele trzeba zmienić), może sprawić, że ta monotoniczna relacja odparować. Zastanowię się, co jeszcze mogę powiedzieć.
Glen_b
+1 for the edit: these are valuable comments and it's especially useful to see the formula for F appear.
whuber
3

"for OLS regression, does a higher R-squared also imply a higher P-value? Specifically for a single explanatory variable (Y = a + bX + e) "

R2FtR2ptR2 is:

|t|=R2(1R2)(n2)

So in this case, once you fix n, the higher the R2 the higher the t statistic and the lower the p-value.

"but would also be interested to know for n multiple explanatory variables (Y = a + b1X + ... bnX + e)."

The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence the F statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.

Context - I'm performing OLS regression on a range of variables and am trying to develop the best explanatory functional form (...)

Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even if R2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.

And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then the R2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.

Carlos Cinelli
źródło