Powiązania pomiędzy

39

Powiedzmy, że mam dwie tablice 1-wymiarowe, a1 i a2 . Każdy zawiera 100 punktów danych. 1 jest rzeczywiste dane i 2 jest przewidywania modelu. W tym przypadku, R 2 wartość będzie: R 2 = 1 - S S r e sa1a2R2

R2=1SSresSStot  (1).
W międzyczasie byłoby to równe wartości kwadratowej współczynnika korelacji,
R2=(Correlation Coefficient)2(2).
Teraz, jeśli mogę zamienić dwa: 2 jest rzeczywiste dane, a 1 jest przewidywania modelu. Z równania ( 2 ) , ponieważ współczynnik korelacji nie zależy, który pochodzi pierwsze, R 2 wartość będzie taka sama. Jednak z równania ( 1 ) , S S t o t = i ( y i - ˉ y ) 2 , wartość R 2 ulegnie zmianie, ponieważ S Sa2a1(2)R2(1)SStot=i(yiy¯)2R2SStot zmieniła się, jeżeli przełącznikyz 1 do 2 ; w międzyczasieS S r e s =i ( f i - ˉ y ) 2 nie zmienia się.a1a2SSres=i(fiy¯)2

Moje pytanie brzmi: w jaki sposób mogą się one ze sobą sprzeczne?

Edytuj :

  1. Zastanawiałem się, czy będzie relacja w równaniu. (2) nadal stoją, jeśli nie jest to prosta regresja liniowa, tj. Związek między IV i DV nie jest liniowy (może być wykładniczy / log)?

  2. Czy ta relacja nadal będzie obowiązywać, jeśli suma błędów prognozowania nie będzie równa zero?

Shawn Wang
źródło
Uważam, że ta prezentacja jest bardzo pomocna i nietechniczna: google.com/…
ihadanny

Odpowiedzi:

19

To prawda, że zmieni się ... ale zapomniałeś, że zmieni się również regresja sumy kwadratów. Rozważmy więc prosty model regresji i oznaczmy współczynnik korelacji jako r 2 x y = S 2 x ySStot , gdzie użyłem subindeksuxy,aby podkreślić fakt, żexjest zmienną niezależną, ayjest zmienną zależną. Oczywiście,r2 x y pozostaje niezmienione, jeśli zamieniszx zapomocąy. Możemy łatwo pokazać, żeSSRxy=Syy(R2 x y ), gdzieSSRxyjest sumą regresji kwadratów i rxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxy jest całkowitą sumą kwadratów, gdzie x jest niezależny, a y jest zmienną zależną. Dlatego: R 2 x y = S S R x ySyyxygdzieSSExyjest odpowiednią resztkową sumą kwadratów, gdziexjest niezależny, ayjest zmienną zależną. Zauważ, że w tym przypadku mamySSExy=b2 x y Sxxzb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (patrz np. Równanie (34) - (41)tutaj.) Dlatego:R2 x y =Syy- S 2 x yb=SxySxxOczywiście powyższe równanie jest symetryczna względemxiy. Innymi słowy:R2 x y =R2 y x . Podsumowując po zmianieXzYw prostym modelu regresji zarówno licznik, jak i mianownikR2 x Y =SSRxy
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xy
Rxy2=Ryx2.
xy zmieni się w taki sposób, żeR2 x y =R2 y x .Rxy2=SSRxySyyRxy2=Ryx2.
Stat
źródło
R2=r2
1
R2=SSreg/SStotSSres=i(fiy¯)2SStotR2jest zmieniony.
Shawn Wang
Czy zdarza ci się mieć odniesienie do tego, jak to rozwiązać w ogólnym przypadku zmienności p Gaussa?
jmb
26

R2yiy^i

Pełny dowód na to, jak uzyskać współczynnik determinacji R2 z kwadratowego współczynnika korelacji Pearsona między wartościami obserwowanymi yi a wartościami dopasowanymi y ^ i można znaleźć pod następującym linkiem:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

Moim zdaniem powinno to być dość łatwe do zrozumienia, wystarczy wykonać pojedyncze kroki. Wydaje mi się, że patrząc na to, konieczne jest zrozumienie, w jaki sposób naprawdę działa relacja między dwiema kluczowymi postaciami.

Andreas Dibiasi
źródło
6

R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

Kwadrat korelacji między odpowiedzią a dopasowanym modelem liniowym.

mężczyzna
źródło
5

rr2

rYXXYr.30

r2r2=(covσxσy)2=|cov|σx2|cov|σy2r2proppropr

covσx2σy2covcovσx2σy2σxσyr2r

rr2Y~XX~Y

ttnphns
źródło
R2R2R2
Współczynnik determinacji lub R-kwadrat jest szerszą koncepcją niż r ^ 2, która dotyczy jedynie prostej regresji liniowej. Proszę przeczytać wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .
ttnphns
Dzięki jeszcze raz! Rozumiem. Moje pytanie brzmi: czy w przypadku bardziej złożonych regresji, czy nadal mogę wyrównać wartość r, aby uzyskać współczynnik determinacji?
Shawn Wang
1
W przypadku „złożonej regresji” dostajesz kwadrat R, ale nie dostajesz r.
ttnphns
1

R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

R2R2

R2r2R2rρ

Nick Stauner
źródło
1
R2=0.1468SSR>SSTR2R2