Czy korelacja lub współczynnik determinacji odnoszą się do odsetka wartości, które mieszczą się wzdłuż linii regresji?

12

Korelacja jest miarą liniowego powiązania między dwiema zmiennymi. Współczynnik determinacji, , jest miarą tego, jak dużą zmienność jednej zmiennej można „wyjaśnić” zmiennością drugiej.r 2rr2

Na przykład, jeśli jest korelacją między dwiema zmiennymi, to . Stąd 64% zmienności w jednym z nich można wytłumaczyć różnicami w drugim. Dobrze?r 2 = 0,64r=0.8r2=0.64

Moje pytanie brzmi, czy w podanym przykładzie jedno z poniższych stwierdzeń jest poprawne?

  1. 64% wartości spada wzdłuż linii regresji
  2. 80% wartości spada wzdłuż linii regresji
Bradex
źródło
Termin „upadek” jest nieprecyzyjny. Wydaje się, że przynajmniej niektóre odpowiedzi interpretują to jako „leżące dokładnie na”, a odpowiedź wyraźnie nie jest (chociaż ten pomysł może prowadzić do interesującej miary liniowego skojarzenia, która może być odpowiednia w kilku szczególnych sytuacjach - np. Tam, gdzie jest było mieszaniną braku szumu / błędu przez cały czas, a czasami jakiś błąd, jak w przypadku niektórych procesów zanieczyszczających - a następnie oszacowałbyś odsetek danych, które nie są zanieczyszczone). Jeśli miałeś na myśli coś innego niż „położyć się dokładnie”, musisz określić, co to znaczy.
Glen_b

Odpowiedzi:

8

Pierwsza część tego jest w zasadzie poprawna - ale model wyjaśnia 64% wariancji. W prostej regresji liniowej: Y ~ X, jeśli wynosi 0,64, oznacza to, że 64% zmiany Y zależy od liniowej zależności między Y i X. Możliwe jest silne powiązanie z bardzo niskim , jeśli związek jest silnie nieliniowy.R 2R2R2

Żadne z dwóch ponumerowanych pytań nie jest poprawne. Rzeczywiście, możliwe jest, że żaden punkt nie będzie leżał dokładnie na linii regresji. Nie mierzy się tego. Raczej chodzi o to, jak blisko jest średni punkt do linii. Jeśli wszystkie lub prawie wszystkie punkty są blisko (nawet jeśli żaden nie jest dokładnie na linii), wówczas będzie wysoki. Jeśli większość punktów znajduje się daleko od linii, będzie niski. Jeśli większość punktów jest blisko, ale kilka jest daleko, regresja jest niepoprawna (problem wartości odstających). Inne rzeczy też mogą pójść nie tak.R 2R2R2

Ponadto pozostawiłem pojęcie „daleko” raczej niejasne. Będzie to zależeć od rozłożenia X-ów. Sprecyzowanie tych pojęć jest częścią tego, czego uczysz się na kursie regresji; Nie wchodzę tutaj.

Peter Flom - Przywróć Monikę
źródło
Cóż, to wiele dla mnie wyjaśniło! Dziękuję Mimshot i Peter Flom! Jestem wam bardzo wdzięczny! :)
Bradex,
1
+1, dobra odpowiedź, czy mógłbyś dodać coś w stylu „Rzeczywiście, [możliwe, że] żaden z punktów nie może kłamać ...”. Warto również omówić, że pojęcie odległości punktów od linii jest również zależne od tego, jak rozstawione są litery X.
gung - Przywróć Monikę
15

Masz rację z pierwszą częścią swojego oświadczenia. Zwykłym sposobem interpretacji współczynnika determinacji jest odsetek zmian zmiennej zależnej ( ), który jesteśmy w stanie wyjaśnić zmiennymi objaśniającymi. Dokładną interpretację i wyprowadzenie współczynnika determinacji można znaleźć tutaj y V a r ( y ) R 2R2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

Jednak o wiele mniej znaną interpretacją współczynnika determinacji jest interpretacja go jako współczynnika korelacji Squared Pearsona między obserwowanymi wartościami a dopasowanymi wartościami . Dowód, że współczynnik determinacji jest równoważny kwadratowemu współczynnikowi korelacji Pearsona między obserwowanymi wartościami a dopasowanymi wartościami można znaleźć tutaj R i r i r i r iR2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

Moim zdaniem są to jedyne znaczące sposoby interpretacji współczynnika determinacji . Wynika z tego, że dwa stwierdzenia, które podałeś, nie mogą pochodzić z .R 2R2R2

Michał
źródło
2
Nie jestem pewien, czy istnieją tylko dwa sposoby interpretacji (z pewnością istnieją więcej niż dwa sposoby interpretacji ), ale wynika z tego, że dwóch podanych instrukcji nie można wyprowadzić z , ponieważ są one false (z powodów wyjaśnionych przez @PeterFlom), a nie możliwa żadna inna interpretacja. Ale sądzę, że inaczej jest to miła odpowiedź. r R 2R2rR2
Silverfish,
2
W przypadku, gdy podane linki znikną w pewnym momencie w przyszłości (linkrot jest wiecznym problemem - wolimy, aby odpowiedzi były samodzielne, jeśli to możliwe, ale oczywiście to pytanie nie wymaga pełnych dowodów, więc link jest celowy), mamy trochę zakres stosunków między i , o , o , o , a bardziej geometrycznie tutaj . R 2Corr(y,y^)R2
Silverfish,
2

Niether 1 ani 2 są poprawne.

yyxx

yi=b+mxi+ϵi

ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

Następnie

10.64=0.36=var(yyy^y^)var(yy)
Mimshot
źródło