Co r, r kwadrat i resztkowe odchylenie standardowe mówią nam o zależności liniowej?

13

Małe tło
Pracuję nad interpretacją analizy regresji, ale bardzo się mylę co do znaczenia r, r do kwadratu i resztkowego odchylenia standardowego. Znam definicje:

Charakteryzacje

r mierzy siłę i kierunek liniowej zależności między dwiema zmiennymi na wykresie rozrzutu

Kwadrat R jest statystyczną miarą tego, jak blisko są dane do dopasowanej linii regresji.

Rezydualne odchylenie standardowe jest terminem statystycznym stosowanym do opisania odchylenia standardowego punktów utworzonych wokół funkcji liniowej i jest oszacowaniem dokładności mierzonej zmiennej zależnej. ( Nie wiem, jakie są jednostki, wszelkie informacje na temat jednostek tutaj byłyby pomocne )

(źródła: tutaj )

Pytanie
Chociaż „rozumiem” charakterystykę, rozumiem, w jaki sposób te terminy nie pozwalają wyciągnąć wniosków na temat zestawu danych. Wstawię tutaj mały przykład, być może może on służyć jako przewodnik do odpowiedzi na moje pytanie ( możesz użyć własnego przykładu!)

Przykład
To nie jest pytanie o pracę, ale szukałem w mojej książce prostego przykładu (aktualny zestaw danych, który analizuję, jest zbyt skomplikowany i duży, aby go tu wyświetlić)

Dwadzieścia działek, każda o wymiarach 10 x 4 metry, losowo wybrano na dużym polu kukurydzy. Dla każdego poletka zaobserwowano gęstość rośliny (liczbę roślin na poletku) i średnią masę kolby (gm ziarna na kolbę). Wyniki podano w poniższej tabeli:
(źródło: Statystyka dla nauk przyrodniczych )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Najpierw robię rozrzutu do wizualizacji danych: Więc mogę obliczyć R, R 2 i pozostały odchylenie standardowe. najpierw test korelacji:
wprowadź opis zdjęcia tutaj

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

a po drugie podsumowanie linii regresji:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Na podstawie tego testu: r = -0.9417954, R-kwadrat: 0.887i Resztkowy błąd standardowy: 8.619 Co te wartości mówią nam o zestawie danych? (patrz pytanie )

KingBoomie
źródło
3
Warto zauważyć, że to, co nazywacie „definicjami”, jest jedynie przypadkową charakterystyką i jako takie może wprowadzać w błąd, w zależności od ich interpretacji i zastosowania. Rzeczywiste definicje są ilościowe i precyzyjne.
whuber
Dziękuję za wskazanie, że ja, źródła, z których korzystałem, nazwałem te definicje, jednak bez kontekstu „charakterystyki” prawdopodobnie byłyby rzeczywiście lepsze, zmienię to!
KingBoomie,
Kawałki: R-kwadrat jest zwykle wyjaśniany jako odsetek wariancji wyjaśniony przez predyktory, więc blisko 1 jest dobry. Jednostki resztkowego odchylenia standardowego powinny być jednostkami twoich reszt, które są jednostkami zmiennej odpowiedzi.
Alistaire,
Dziękuję Ci! @alistaire to ma sens, hahah, ponieważ porównujemy wartość y oryginalnych punktów z wartościami y przewidywanych punktów
KingBoomie
Powinieneś wykreślić resztki w stosunku do przewidywanych, jak sugerował David w swojej odpowiedzi.
HelloWorld,

Odpowiedzi:

5

Te statystyki mogą powiedzieć, czy relacja jest liniowa, ale niewiele, czy relacja jest ściśle liniowa. Związek z małym składnikiem kwadratowym może mieć wartość r ^ 2 wynoszącą 0,99. Wykres reszt w funkcji przewidywanej może być odkrywczy. W eksperymencie Galileo tutaj https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html korelacja jest bardzo wysoka, ale związek jest wyraźnie nieliniowy.

David Lane
źródło
5

Oto druga próba odpowiedzi po otrzymaniu opinii na temat problemów z moją pierwszą odpowiedzią.

Po pierwsze, , w twoim prostym przypadku regresji liniowej, jest równoważne korelacji Pearsona między gęstością rośliny a masą kolby. Mówiąc bardziej ogólnie,stanowi górną granicę tego, jak dobry predyktor danych może być teoretycznie skonstruowany przy użyciu funkcji liniowej. To znaczy najlepszy możliwy predyktor liniowy przewidziałby wartości z korelacjąz zaobserwowanymi wartościami.| r | | r |r|r||r|

Po drugie, w prostym przypadku regresji liniowej to po prostu . W przypadku regresji wielokrotnej jest czasami obliczany inaczej, na przykład przez porównanie reszt (różnica między przewidywanymi i obserwowanymi wartościami zmiennej odpowiedzi) w dopasowanym modelu do reszt, gdy przewidywana zmienna odpowiedzi jest ustawiona na stałą.R2R 2r2R2

Zwykle interpretuje się jako miarę liniowości zależności między dwiema zmiennymi, a interpretuje się jako ułamek wariancji zmiennej zależnej, który jest wyjaśniony przez model. Istnieje jednak wiele sytuacji, w których te interpretacje nie mają zastosowania. Na przykład, jeśli średnia masa kolby dla danej gęstości rośliny nie jest liniowa w gęstości rośliny, wartość może nie wyrażać poprawnie „liniowości” zależności. Niektóre ogólne problemy z patrz kwartet Anscombe . Zobacz także tę odpowiedź whuber na pytanie o przydatność . Aby odpowiedzieć na to pytanie w odniesieniu do iR 2 r r R 2 r R 2rR2rrR2rR2 , te wartości w ogóle nie mówią nam dużo o zestawie danych, chyba że możemy poczynić dość mocne założenia poza tym, co zwykle robi się dla regresji liniowej (na przykład musimy założyć, że nie ma nieliniowej zależności między zmienne oprócz liniowego, które modelujemy).

Rezydualny błąd standardowy jest odchyleniem standardowym dla rozkładu normalnego, wyśrodkowanym na przewidywanej linii regresji, reprezentującym rozkład rzeczywiście obserwowanych wartości. Innymi słowy, gdybyśmy zmierzyli tylko gęstość rośliny dla nowego poletka, możemy przewidzieć masę kolby przy użyciu współczynników dopasowanego modelu, jest to średnia tego rozkładu. RSE jest standardowym odchyleniem tego rozkładu, a zatem miarą tego, o ile spodziewamy się, że faktycznie zaobserwowane masy kolb będą odbiegać od wartości przewidywanych przez model. RSE wynoszące ~ 8 w tym przypadku należy porównać ze standardowym odchyleniem próbki masy kolby, ale im mniejsze RSE w porównaniu z SD próbki, tym bardziej przewidywalny lub odpowiedni jest model.

Johan Falkenjack
źródło
@whuber Na razie nie ma innych odpowiedzi na to pytanie, więc postanowiłem spróbować jeszcze raz. Zamiast cofnąć usunięcie starej odpowiedzi, z całym bagażem postanowiłem po prostu napisać nową (z wyjątkiem akapitu RSE, który skopiowałem). Jeśli masz czas, będę bardzo wdzięczny za wszelkie informacje zwrotne na temat tej drugiej próby. Moje zwykłe podejście do oceny modelu to wzajemne sprawdzanie poprawności i zestawy wstrzymujące, ponieważ celem jest zwykle przewidywanie, ale naprawdę chciałbym zrozumieć te wskaźniki, jak również są one dość powszechne.
Johan Falkenjack,
2
+1 Dziękujemy za wysiłki w tym zakresie. Stworzyłeś post, który zasługuje na szerszą uwagę ze względu na kanoniczne traktowanie tak podstawowych i ważnych statystyk regresji. Jedna drobna rzecz: nie jestem pewien, czy podążę za twoimi wstępnymi uwagami na temat. Wydaje może być mylących , na statystykę , z , w korelacji populacji. Trudno zrozumieć, w jaki sposób statystyka, która jest własnością próbki, może stanowić „górną granicę” dla dowolnej właściwości populacji . r ρ|r|rρ
whuber