tl; dr - w przypadku regresji OLS, czy wyższy R-kwadrat oznacza również wyższą wartość P? W szczególności dla jednej zmiennej objaśniającej (Y = a + bX + e), ale chciałbym również wiedzieć o n wielu zmiennych objaśniających (Y = a + b1X + ... bnX + e).
Kontekst - Przeprowadzam regresję OLS dla szeregu zmiennych i staram się opracować najlepszą objaśniającą formę funkcjonalną, tworząc tabelę zawierającą wartości R-kwadrat między liniową, logarytmiczną itp. Transformacjami każdej zmiennej objaśniającej (niezależnej) oraz zmienna odpowiedzi (zależna). To wygląda trochę jak:
Nazwa zmiennej - forma liniowa - --ln (zmienna) --exp (zmienna) - ... itd
Zmienna 1 ------- R-kwadrat ---- R-kwadrat ---- R-kwadrat -
... itd ...
Zastanawiam się, czy R-kwadrat jest właściwe, czy też wartości P byłyby lepsze. Przypuszczalnie istnieje pewien związek, ponieważ związek bardziej znaczący oznaczałby wyższą moc wyjaśniającą, ale nie jestem pewien, czy jest to prawdą w sposób rygorystyczny.
źródło
Odpowiedzi:
Odpowiedź brzmi: nie, nie ma takiej regularne relacje między oraz ogólnej regresji wartości p, ponieważ R 2 zależy w równym stopniu od wariancji zmiennych niezależnych, jak ma to miejsce na wariancji reszt (do której jest odwrotnie proporcjonalna), a użytkownik może dowolnie zmieniać wariancję zmiennych niezależnych.R2 R2
Na przykład, pod uwagę dowolny zestaw danych wielowymiarowych z i indeksowania przypadki, i załóżmy, że zbiór wartości pierwszej zmiennej niezależnej, { x i 1 } , ma unikalne maksimum x ∗ oddzielone od drugiej najwyższej wartości wartością dodatnią ϵ . Zastosuj nieliniową transformację pierwszej zmiennej, która wysyła wszystkie wartości mniejsze niż((xi1,xi2,…,xip,yi)) i {xi1} x∗ ϵ do zakresu [ 0 , 1 ] i wysyłasam x ∗ do pewnej dużej wartości M ≫ 1 . Dla dowolnego takiego M można tego dokonać na przykład poprzez odpowiednią (skalowaną) transformację Box-Coxa x → a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , więc nie mówimy o coś dziwnego lub „patologicznego”. Następnie jako Mx∗−ϵ/2 [0,1] x∗ M≫1 M x→a((x−x0)λ−1)/(λ−1)) M Rośnie dowolnie duża, zbliża 1 tak ściśle, jak należy, niezależnie od tego, jak złe dopasowanie jest, ponieważ wariancja reszt będzie ograniczony, natomiast wariancja pierwszej zmiennej niezależnej jest asymptotycznie proporcjonalny do M 2 .R2 1 M2
Zamiast tego powinieneś używać testów dobroci dopasowania (wśród innych technik), aby wybrać odpowiedni model w swojej eksploracji: powinieneś martwić się o liniowość dopasowania i homoscedastyczność reszt. I nie bierz żadnych wartości p z wynikowej regresji na zaufaniu: staną się prawie bez znaczenia po przejściu tego ćwiczenia, ponieważ ich interpretacja zakłada, że wybór wyrażenia zmiennych niezależnych nie zależał od wartości zmienna zależna w ogóle, co w dużym stopniu nie ma miejsca w tym przypadku.
źródło
Ta odpowiedź nie dotyczy bezpośrednio głównego pytania; to nic więcej niż dodatkowe informacje, które są zbyt długie na komentarz.
Zwracam na to uwagę, ponieważ econometricstatsquestion bez wątpienia spotkać tę informację, czy coś takiego w pewnym momencie (stwierdzające, że i R 2 są podobne) i zastanawiam się, czy informacje podane w innych odpowiedzi tutaj jest źle - to nie jest źle - ale myślę, warto wyjaśnić, co się dzieje.F R2
Istnieje związek w określonych okolicznościach; jeśli trzymać liczbę obserwacji i liczbę predyktory ustalonych dla danego modelu w rzeczywistości jest monotoniczna w R 2 , ponieważF R2
(Jeśli podzielisz licznik i mianownik przez i wyciągniesz stałe w k out, możesz zobaczyć, że 1 / F ∝ 1 / R 2 - 1, jeśli utrzymasz stałą N i k .)R2 k 1/F∝1/R2−1 N k
Ponieważ dla stałej DF i wartości p monotonicznie podobne, R 2 i P -wartość są monotonicznie podobne.F R2 p
Ale zmień prawie wszystko w modelu, a ten związek nie zachowuje się w zmienionych okolicznościach.
Na przykład, dodanie marki punktu większa, usuwając jeden sprawia, że jest mniejszy, ale robi albo mogą zwiększać lub zmniejszać R 2 , więc wygląda na to, F i R 2 nie muszą poruszać się razem, gdy dodajesz lub usuwasz dane. Dodawania zmiennej maleje ( N - k ) / ( K - 1 ) , ale zwiększa R 2 (i vice versa), więc ponownie, R 2 nie muszą być związane z(N−k)/(k−1) R2 F R2 (N−k)/(k−1) R2 R2 kiedy to zrobisz.F
Oczywiście, gdy porównasz wartości i p pomiędzy modelami o różnych charakterystykach, ta relacja niekoniecznie zachowuje się, jak udowodnił to whuber w przypadku transformacji nieliniowych.R2 p
źródło
So in this case, once you fixn , the higher the R2 the higher the t statistic and the lower the p-value.
The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence theF statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.
Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even ifR2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.
And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then theR2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.
źródło