Prosta interpretacja wyników regresji liniowej

20

Przeprowadziłem prostą regresję liniową logarytmu naturalnego 2 zmiennych, aby ustalić, czy są one skorelowane. Moje wyniki są następujące:

R^2 = 0.0893

slope = 0.851

p < 0.001

Jestem zdezorientowany. Patrząc na wartość , powiedziałbym, że dwie zmienne nie są skorelowane, ponieważ jest tak bliskie . Jednak nachylenie linii regresji wynosi prawie (mimo że wygląda na prawie poziomą na wykresie), a wartość p wskazuje, że regresja jest bardzo znacząca.R201

Czy to oznacza, że ​​te dwie zmienne wysoce skorelowane? Jeśli tak, co oznacza wartość ?R2

Powinienem dodać, że statystyka Durbina-Watsona została przetestowana w moim oprogramowaniu i nie odrzuciła hipotezy zerowej (wyniosła ). Myślałem, że to przetestowało niezależność między zmiennymi. W tym przypadku oczekiwałbym, że zmienne będą zależne, ponieważ są to pomiary pojedynczego ptaka. Wykonuję tę regresję jako część opublikowanej metody określania stanu ciała osoby, więc założyłem, że zastosowanie regresji w ten sposób ma sens. Jednak biorąc pod uwagę te wyniki, myślę, że być może dla tych ptaków ta metoda nie jest odpowiednia. Czy to wydaje się rozsądnym wnioskiem?1.35722)

Mog
źródło
1
Durbin-Watson statystyka jest test dla korelacji szeregowego: to, aby zobaczyć, czy sąsiadujące terminy błędach są wzajemnie skorelowane. Nie mówi nic o korelacji między twoim X a Y! Niepowodzenie testu wskazuje, że nachylenie i wartość p należy interpretować ostrożnie.
whuber
Ach, okej To ma trochę więcej sensu niż to, czy te dwie zmienne są ze sobą skorelowane ... w końcu myślałem, że właśnie to próbowałem znaleźć za pomocą regresji. A to, że nieudany test wskazuje, że powinienem być ostrożny, interpretując nachylenie, a wartość p ma w tym przypadku jeszcze większy sens! Dzięki @whuber!
Mog
1
Chciałbym tylko dodać, że nachylenie może być bardzo znaczące (wartość p <0,001), mimo że związek jest słaby, szczególnie przy dużej wielkości próby. W większości odpowiedzi wskazywano na to, że nachylenie (nawet jeśli jest znaczące) nie mówi nic o sile związku.
Glen
Potrzebujesz aby określić siłę związku. Zobacz także stats.stackexchange.com/a/265924/99274 . n
Carl

Odpowiedzi:

22

Szacunkowa wartość nachylenia sama w sobie nie mówi o sile związku. Siła zależności zależy od wielkości wariancji błędu i zakresu predyktora. Również znacząca wartość niekoniecznie mówi ci, że istnieje silny związek; -wartość po prostu sprawdzić czy nachylenie jest dokładnie 0. wystarczająco dużą wielkość próbki, nawet niewielkie odchylenia od tej hipotezy (np ones nie praktycznego znaczenia) daje znaczący -wartość.p pppp

Spośród trzech przedstawionych wielkości , współczynnik determinacji , daje największe wskazanie siły zależności. W twoim przypadku oznacza, że wariancji zmiennej odpowiedzi można wyjaśnić liniową zależnością z predyktorem. To, co stanowi „duży” zależy od dyscypliny. Na przykład w naukach społecznych może być „duży”, ale w kontrolowanych środowiskach, takich jak ustawienia fabryczne, może wymagać że istnieje „silny” związek. W większości sytuacji jest bardzo małymR 2 = 0,089 8,9 % R 2 R 2 = 0,2 R 2 > 0,9 0,089 R 2R2)R2)=.0898,9%R2)R2)=.2R2)>.9.089R2), więc Twój wniosek dotyczący słabej zależności liniowej jest prawdopodobnie uzasadniony.

Makro
źródło
Dzięki Makro. Bardzo pomocna odpowiedź. Cieszę się, że zawarłeś część dotyczącą tego, co dokładnie testowana jest wartość p. Ma sens, że wartość p byłaby tak niska, biorąc pod uwagę, jak blisko 1 jest nachylenie. Wydaje mi się, w świetle twojej odpowiedzi i @jedfrancis ', wartość r ^ 2 opisuje tę „chmurę” punktów danych wokół linii regresji. Doskonały! Teraz jest to o wiele wyraźniejsze!
Mog
@Macro (+1), dobra odpowiedź. Ale w jaki sposób „siła relacji” zależy od „wielkości przechwytywania”? AFAIK punkt przechwytujący nic nie mówi o korelacji lub „sile” relacji liniowej.
whuber
@ whuber, masz rację - przechwytywanie jest nieistotne i zdecydowanie nie zmienia korelacji - myślałem o funkcji regresji vs. y = x i myślałem w jakiś sposób o silniejszym związku (drugi) wszystkie pozostałe były równe), ponieważ większa wartość wielkości y była spowodowana przez x w tym drugim przypadku. Teraz nie ma sensu, kiedy o tym myślę. Zredagowałem post. y=10000+xy=xyx
Makro,
4
@macro Doskonała odpowiedź, ale chciałbym podkreślić (dla osób początkujących w tym temacie), że R ^ 2 może być bardzo niski, nawet przy silnym związku, jeśli związek jest nieliniowy, a zwłaszcza jeśli jest niemonotoniczny. Moim ulubionym przykładem jest związek między stresem a wynikiem egzaminu; bardzo niski stres i bardzo wysoki stres są zwykle gorsze niż stres umiarkowany.
Peter Flom - Przywróć Monikę
1
@macro Tak, twoja odpowiedź była dobra, ale pracowałem z ludźmi, którzy nie znają wielu statystyk, i widziałem, co się dzieje ... czasami to, co mówimy, nie jest tym, co słyszą!
Peter Flom - Przywróć Monikę
14

mówi, ile zmienności zmiennej zależnej jest wyjaśnione przez model. Można jednak interpretować R 2 , jak również na zależność między oryginalnymi wartości zmiennej zależnej i wartościami zamocowane. Dokładna interpretacja i wyprowadzenie współczynnik korelacji R 2 znajduje się tutaj .R2)R2)R2)

Dowód, że współczynnik korelacji jest równoważny współczynnik korelacji Pearsona między kwadratu obserwowanych wartości i dopasowane wartości y i może znaleźć tutaj .yjay^ja

lub współczynnik determinacji wskazuje siłę modelu w wyjaśnić zmienną zależną. W twoim przypadku, R 2 = 0,089 . To, że Twój model jest w stanie wyjaśnić 8,9% wariancji zmiennej zależnej. Albo, współczynnik korelacji między y I i twoich dopasowanych wartości y i jest 0,089. Co stanowi dobrą R 2 jest dyscyplina zależne.R2)R2)=0,089yjay^jaR2)

Wreszcie do ostatniej części twojego pytania. Nie można uzyskać testu Durbina-Watsona, który mówi coś o korelacji między zmiennymi zależnymi i niezależnymi. Testy Durbina-Watsona testują korelację szeregową. Przeprowadzane jest w celu sprawdzenia, czy terminy błędów są wzajemnie skorelowane.

Lionel Benza
źródło
9

wartość informuje, ile różnice w danych jest wyjaśnione przez dopasowanego modelu.R2)

Niska wartość w twoim badaniu sugeruje, że twoje dane prawdopodobnie rozprzestrzeniają się szeroko wokół linii regresji, co oznacza, że ​​model regresji może wyjaśnić (bardzo niewiele) 8,9% zmienności danych.R2)

Czy sprawdziłeś, czy model liniowy jest odpowiedni? Spójrz na rozkład swoich pozostałości, ponieważ możesz to wykorzystać do oceny dopasowania modelu do twoich danych. Idealnie, twoje reszty nie powinny wykazywać związku z twoimi wartościami , a jeśli tak, możesz pomyśleć o przeskalowaniu zmiennych w odpowiedni sposób lub dopasowaniu bardziej odpowiedniego modelu.x

jedfrancis
źródło
Dzięki @jed. Tak, sprawdziłem normalność resztek i wszystko było dobrze. Twoja sugestia, że ​​dane są szeroko rozłożone wokół tej linii regresji, jest dokładnie właściwa - punkty danych wyglądają jak chmura wokół linii regresji wykreślonej przez oprogramowanie.
Mog
1
Witamy na naszej stronie, @jed, i dziękujemy za odpowiedź! Należy pamiętać, że samo nachylenie nie mówi prawie nic o korelacji, oprócz jej znaku, ponieważ korelacja nie zależy od jednostek, w których mierzone są X i Y, ale nachylenie robi.
whuber
1
@whuber mówi, że wartość nachylenia nie nie powiedzieć nic o sile związku, chyba że zmienne są standaryzowane. Zobacz odpowiedź shabbychefs.
wolf.rauch
@ wolf.rauch gotcha
jedfrancis
@jed Byłoby dobrze, gdybyś poprawił swoją odpowiedź.
whuber
7

Dla regresji liniowej, zamocowana Nachylenie będzie korelację (co, gdy kwadrat daje współczynnik oznaczania, ) razy empiryczny odchylenie standardowe regressand (The y ) podzielonej przez empiryczną odchylenia standardowego regressor ( x ). W zależności od skalowanie X i Y , można mieć nachylenie dopasowanie równy jeden, ale dowolnie małej R 2 wartości.R2)yxxyR2)

Krótko mówiąc, nachylenie nie jest dobrym wskaźnikiem „dopasowania” modelu, chyba że masz pewność, że skale zmiennych zależnych i niezależnych muszą być sobie równe.

shabbychef
źródło
1

Podoba mi się już udzielona odpowiedź, ale pozwólcie, że uzupełnię je innym (i bardziej wymownym) podejściem.

Załóżmy, że zbieramy wiele obserwacji od 1000 przypadkowych osób próbujących dowiedzieć się, czy ciosy w twarz są związane z bólami głowy:

H.mizarezadohmis=β0+β1P.undoh_jan_thmi_fazadomi+ε

ε

β1R2)

Graficznie wygląda to prawdopodobnie na strome zbocze, ale z bardzo dużą zmiennością wokół tego zbocza.

cd98
źródło
0

@Macro miał świetną odpowiedź.

Szacunkowa wartość nachylenia sama w sobie nie mówi o sile związku. Siła zależności zależy od wielkości wariancji błędu i zakresu predyktora. Ponadto znaczna wartość pp niekoniecznie oznacza, że ​​istnieje silny związek; wartość pp sprawdza po prostu, czy nachylenie wynosi dokładnie 0.

Chcę tylko dodać numeryczny przykład, aby pokazać, jak wygląda opisany przypadek OP.

  • R2)
  • Znaczący na wartości p
  • 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

wprowadź opis zdjęcia tutaj

Haitao Du
źródło