Co to znaczy, że regresja liniowa jest statystycznie istotna, ale ma bardzo niskie r kwadrat do kwadratu?

Odpowiedzi:

27

Oznacza to, że możesz wyjaśnić niewielką część wariancji danych. Na przykład możesz ustalić, że stopień naukowy wpływa na wynagrodzenie, ale jednocześnie jest to tylko niewielki czynnik. Istnieje wiele innych czynników, które wpływają na twoje wynagrodzenie, a wkład studiów wyższych jest bardzo niewielki, ale wykrywalny.

W praktyce może to oznaczać, że średni stopień kolegium zwiększa wynagrodzenie za $ 500 rocznie, podczas gdy odchylenie standardowe od wynagrodzeń osób to $ 10K. Tak więc wiele osób z wyższym wykształceniem ma niższe zarobki niż osoby bez wykształcenia, a wartość twojego modelu prognozowania jest niska.

Aksakal
źródło
11

Oznacza to, że „błąd nieredukowalny jest wysoki”, tzn. Najlepsze, co możemy zrobić (z modelem liniowym) jest ograniczone. Na przykład następujący zestaw danych:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Uwaga: sztuczka w tym zestawie danych polega na tym, że biorąc pod uwagę jedną wartość , istnieje zbyt wiele różnych wartości y , że nie możemy zrobić dobrej prognozy, aby spełnić wszystkie z nich. W tym samym czasie, nie jest „silny” korelacji liniowej między X i Y . Jeśli dopasujemy model liniowy, otrzymamy znaczące współczynniki, ale niskie R do kwadratu.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

wprowadź opis zdjęcia tutaj

Haitao Du
źródło
3

Co to znaczy, że regresja liniowa jest statystycznie istotna, ale ma bardzo niskie r kwadrat do kwadratu?

Oznacza to, że istnieje zależność liniowa między zmienną niezależną i zależną, ale ta relacja może nie być warta rozmowy.

Znaczenie relacji zależy jednak w dużej mierze od tego, co badamy, ale ogólnie można przyjąć, że nie należy mylić znaczenia statystycznego z istotnością.

Przy wystarczająco dużej próbie nawet najbardziej trywialne relacje mogą być istotne statystycznie.

faustus
źródło
1
W rzeczywistości regresja liniowa oznacza liniowość parametrów. Surowe zmienne zależne można przekształcić i nadal masz regresję liniową. Jestem trochę zdziwiony tym, co według ciebie ma znaczenie statystyczne. Dla mnie oznacza to, że oszacowania parametrów są duże.
Michael R. Chernick
^ znaczenie odnosi się do prawdopodobieństwa, że ​​wyniki były wyłącznie przypadkowe i że nie ma związku między predyktorami a zmienną zależną. jeśli masz małą próbkę, a wyniki są znaczące, to tak, oszacowania parametrów byłyby duże. jednak przy absurdalnie dużej próbce można uzyskać znaczące wyniki nawet przy bardzo małych oszacowaniach parametrów. wypróbuj tutaj: danielsoper.com/statcalc/calculator.aspx
faustus
To, co mówisz, brzmi jak ogólny opis tego, na czym polega wnioskowanie. Ale istotność statystyczna jest specyficznym terminem, który ma związek z przekroczeniem wartości krytycznej, gdzie wartość krytyczna zależy od określonego poziomu istotności wybranego przez analityka (np. 0,05. 0,01 itd.). Wielkość próby jest kolejnym czynnikiem. W regresji testujesz kilka hipotez (znaczenie poszczególnych współczynników regresji, a także test, że nie ma związku. Można to również skomplikować, wykonując procedury etapowe, wybierając między kilkoma możliwymi modelami.
Michael R. Chernick,
1
Statystyka jest po części nauką, a po części sztuką, ale opiera się na zasadach matematycznych.
Michael R. Chernick,
2
@MichaelChernik Czy potrafisz trochę rozwinąć? Zgadzam się z Faustusem (w rzeczywistości zdarzyło mi się udzielić podobnej odpowiedzi) i nie rozumiem twojego punktu widzenia. W regresji liniowej istotność ((istotność poszczególnych współczynników regresji lub całej regresji) jest testowana pod kątem hipotezy braku zależności (współczynnik dokładnie 0). Przy wystarczającej liczbie danych można stwierdzić, że współczynniki są niezerowe, ale strasznie small. (kontynuuje)
Luca Citi,
2

Innym sposobem sformułowania tego jest to, że oznacza to, że możesz śmiało przewidzieć zmianę na poziomie populacji, ale nie na poziomie indywidualnym. tzn. istnieje duża zmienność w poszczególnych danych, ale gdy stosuje się wystarczająco dużą próbkę, ogólny efekt można zobaczyć ogólnie. Jest to jeden z powodów, dla których niektóre rządowe porady zdrowotne nie są pomocne dla danej osoby. Rządy czasami odczuwają potrzebę działania, ponieważ widzą, że więcej niektórych działań prowadzi do ogólnej liczby zgonów w populacji. Tworzą porady lub zasady, które „ratują” ich życie. Jednak ze względu na dużą różnorodność indywidualnych odpowiedzi może być bardzo mało prawdopodobne, aby osobiście dostrzegł jakąkolwiek korzyść (lub, co gorsza, ze względu na określone warunki genetyczne, ich własne zdrowie poprawiłoby się w wyniku zastosowania przeciwnych wskazówek, ale jest to ukryte w agregacji populacji). Jeśli dana osoba czerpie korzyści (np. Przyjemność) z „niezdrowej” działalności, postępowanie zgodnie z tą radą może oznaczać, że rezygnuje z tej określonej przyjemności przez całe życie, ale tak naprawdę nie zmienia osobiście, czy cierpiałby na tę chorobę.

zdrowotne
źródło
Bardzo dobry przykład!
kjetil b halvorsen
R2