Przeprowadziłem prostą regresję liniową logarytmu naturalnego 2 zmiennych, aby ustalić, czy są one skorelowane. Moje wyniki są następujące:
R^2 = 0.0893
slope = 0.851
p < 0.001
Jestem zdezorientowany. Patrząc na wartość , powiedziałbym, że dwie zmienne nie są skorelowane, ponieważ jest tak bliskie . Jednak nachylenie linii regresji wynosi prawie (mimo że wygląda na prawie poziomą na wykresie), a wartość p wskazuje, że regresja jest bardzo znacząca.
Czy to oznacza, że te dwie zmienne są wysoce skorelowane? Jeśli tak, co oznacza wartość ?
Powinienem dodać, że statystyka Durbina-Watsona została przetestowana w moim oprogramowaniu i nie odrzuciła hipotezy zerowej (wyniosła ). Myślałem, że to przetestowało niezależność między zmiennymi. W tym przypadku oczekiwałbym, że zmienne będą zależne, ponieważ są to pomiary pojedynczego ptaka. Wykonuję tę regresję jako część opublikowanej metody określania stanu ciała osoby, więc założyłem, że zastosowanie regresji w ten sposób ma sens. Jednak biorąc pod uwagę te wyniki, myślę, że być może dla tych ptaków ta metoda nie jest odpowiednia. Czy to wydaje się rozsądnym wnioskiem?
Odpowiedzi:
Szacunkowa wartość nachylenia sama w sobie nie mówi o sile związku. Siła zależności zależy od wielkości wariancji błędu i zakresu predyktora. Również znacząca wartość niekoniecznie mówi ci, że istnieje silny związek; -wartość po prostu sprawdzić czy nachylenie jest dokładnie 0. wystarczająco dużą wielkość próbki, nawet niewielkie odchylenia od tej hipotezy (np ones nie praktycznego znaczenia) daje znaczący -wartość.p pp p p
Spośród trzech przedstawionych wielkości , współczynnik determinacji , daje największe wskazanie siły zależności. W twoim przypadku oznacza, że wariancji zmiennej odpowiedzi można wyjaśnić liniową zależnością z predyktorem. To, co stanowi „duży” zależy od dyscypliny. Na przykład w naukach społecznych może być „duży”, ale w kontrolowanych środowiskach, takich jak ustawienia fabryczne, może wymagać że istnieje „silny” związek. W większości sytuacji jest bardzo małymR 2 = 0,089 8,9 % R 2 R 2 = 0,2 R 2 > 0,9 0,089 R 2R2) R2)= .089 8,9 % R2) R2)= .2 R2)> .9 .089 R2) , więc Twój wniosek dotyczący słabej zależności liniowej jest prawdopodobnie uzasadniony.
źródło
mówi, ile zmienności zmiennej zależnej jest wyjaśnione przez model. Można jednak interpretować R 2 , jak również na zależność między oryginalnymi wartości zmiennej zależnej i wartościami zamocowane. Dokładna interpretacja i wyprowadzenie współczynnik korelacji R 2 znajduje się tutaj .R2) R2) R2)
Dowód, że współczynnik korelacji jest równoważny współczynnik korelacji Pearsona między kwadratu obserwowanych wartości i dopasowane wartości y i może znaleźć tutaj .yja y^ja
lub współczynnik determinacji wskazuje siłę modelu w wyjaśnić zmienną zależną. W twoim przypadku, R 2 = 0,089 . To, że Twój model jest w stanie wyjaśnić 8,9% wariancji zmiennej zależnej. Albo, współczynnik korelacji między y I i twoich dopasowanych wartości y i jest 0,089. Co stanowi dobrą R 2 jest dyscyplina zależne.R2) R2)= 0,089 yja y^ja R2)
Wreszcie do ostatniej części twojego pytania. Nie można uzyskać testu Durbina-Watsona, który mówi coś o korelacji między zmiennymi zależnymi i niezależnymi. Testy Durbina-Watsona testują korelację szeregową. Przeprowadzane jest w celu sprawdzenia, czy terminy błędów są wzajemnie skorelowane.
źródło
wartość informuje, ile różnice w danych jest wyjaśnione przez dopasowanego modelu.R2)
Niska wartość w twoim badaniu sugeruje, że twoje dane prawdopodobnie rozprzestrzeniają się szeroko wokół linii regresji, co oznacza, że model regresji może wyjaśnić (bardzo niewiele) 8,9% zmienności danych.R2)
Czy sprawdziłeś, czy model liniowy jest odpowiedni? Spójrz na rozkład swoich pozostałości, ponieważ możesz to wykorzystać do oceny dopasowania modelu do twoich danych. Idealnie, twoje reszty nie powinny wykazywać związku z twoimi wartościami , a jeśli tak, możesz pomyśleć o przeskalowaniu zmiennych w odpowiedni sposób lub dopasowaniu bardziej odpowiedniego modelu.x
źródło
Dla regresji liniowej, zamocowana Nachylenie będzie korelację (co, gdy kwadrat daje współczynnik oznaczania, ) razy empiryczny odchylenie standardowe regressand (The y ) podzielonej przez empiryczną odchylenia standardowego regressor ( x ). W zależności od skalowanie X i Y , można mieć nachylenie dopasowanie równy jeden, ale dowolnie małej R 2 wartości.R2) y x x y R2)
Krótko mówiąc, nachylenie nie jest dobrym wskaźnikiem „dopasowania” modelu, chyba że masz pewność, że skale zmiennych zależnych i niezależnych muszą być sobie równe.
źródło
Podoba mi się już udzielona odpowiedź, ale pozwólcie, że uzupełnię je innym (i bardziej wymownym) podejściem.
Załóżmy, że zbieramy wiele obserwacji od 1000 przypadkowych osób próbujących dowiedzieć się, czy ciosy w twarz są związane z bólami głowy:
Graficznie wygląda to prawdopodobnie na strome zbocze, ale z bardzo dużą zmiennością wokół tego zbocza.
źródło
@Macro miał świetną odpowiedź.
Chcę tylko dodać numeryczny przykład, aby pokazać, jak wygląda opisany przypadek OP.
źródło