Czy jest jakaś różnica między i ?

22

Współczynnik korelacji zapisuje się zwykle dużą literą ale czasem nie. Zastanawiam się, czy naprawdę istnieje różnica między i ? Czy może oznaczać coś innego niż współczynnik korelacji?r 2 R 2 rRr2R2r

DJack
źródło
8
Dziwię się, że to pytanie zostało odrzucone - jest jasne i dobrze określone i obejmuje problem, w którym terminologia jest stosowana w niespójny sposób. Co gorsza, ponieważ rozróżniana jest wielkość liter, trudno jest znaleźć wyjaśnienie! Abstrahując od faktu, że może być używany na dwa zupełnie różne rzeczy, sytuacja staje się jeszcze gorsza, gdy weźmiemy pod uwagę modele bez względem wyrazu wolnego, gdy , współczynnik determinacji, nie jest nawet takie same, jak na placu . Nic dziwnego, że ludzie mogą pomylić ten zapis. R 2 RrR2R
Silverfish,

Odpowiedzi:

18

Zapis w tej sprawie wydaje się nieco różnić.

R jest stosowany w kontekście wielokrotnej korelacji i nazywa się go „współczynnikiem wielokrotnej korelacji”. Jest to korelacja pomiędzy obserwowanymi odpowiedzi Y i Y wyposażonych przez model. Y jest zwykle przewidywane na podstawie kilku czynników predykcyjnych X I , np Y = β 0 + β 1 X 1 + β 2 x 2 , gdzie współczynniki przecięcia i nachylenia p i oszacowano na podstawie danych. Zauważ, że 0Y^Y^XiY^=β^0+β^1X1+β^2X2β^i0R1 .

Symbol jest „współczynnikiem korelacji próbki” stosowanym w przypadku dwóch zmiennych - tzn. Istnieją dwie zmienne, X i Y - i zwykle oznacza korelację między X i Y w twojej próbce. Można to potraktować jako oszacowanie korelacji ρ między dwiema zmiennymi w szerszej populacji. Aby skorelować dwie zmienne, nie jest konieczne określenie, która z nich jest predyktorem, a która jest odpowiedzią. Rzeczywiście, jeśli znalazłeś korelację między Y i X , byłaby taka sama jak korelacja między X i Y , ponieważ korelacja jest symetrycznarXYXYρYXXY. Zauważ, że gdy symbol r jest używany w ten sposób, przy r < 0 (korelacja ujemna), jeśli dwie zmienne mają zależność liniowo malejącą (gdy jedna rośnie, druga zmniejsza się).1r1rr<0

Zapis staje się niespójny, gdy występują dwie zmienne, i Y , i wykonywana jest prosta regresja liniowa . To oznacza, określających jedną zmienną, Y , w zależności od wielkości wyjściowych i drugiej, X , jako predyktor oraz dopasowania modelu Y = β 0 + β 1 X . Niektórzy ludzie również użyć symbolu R , aby wskazać zależność między Y i Y , podczas gdy inni (dla zgodności z regresji wielokrotnej) Napisz RXYYXY^=β^0+β^1XrYY^R. Należy zauważyć, że korelacja między obserwowanymi a dopasowanymi odpowiedziami jest z konieczności większa lub równa zero. Jest to jeden z powodów, że nie podoba mi się użycie symbolu w tym przypadku: korelacja między X i Y mogą być ujemne, natomiast korelacja pomiędzy Y i Y jest dodatnia (w rzeczywistości to po prostu być moduł z korelacja między X i Y ), ale oba mogą być zapisane symbolem r . Widziałem niektóre podręczniki i artykuły z Wikipedii, które prawie zamiennie przełączają się między dwoma znaczeniami ri uznałem, że jest to niepotrzebnie mylące. Wolę używać symbolu R.rXYYY^XYrrRna korelacji pomiędzy i Y zarówno regresji pojedynczych i wielokrotnych.YY^

W przypadku zarówno prostych jak i stwardnieniem regresion, a następnie, o ile jest to termin osią wyposażony w modelu pomiędzy Y i Y jest po prostu jako pierwiastek kwadratowy z współczynnik korelacji R 2RYY^R2 (często nazywane „odsetek wariancji wyjaśnione” lub podobny). W przypadku prostych regresji liniowej szczególności, wtedy R2=r2 , gdzie m pisania dla korelacji między X i Y , a R 2 może stanowić albo współczynnik korelacji regresji lub kwadrat korelacji pomiędzyrXYR2 i Y . Ponieważ - 1 r 1 i 0 R 1 , oznacza to, że R = | r | . Tak na przykład, jeśli pojawi się korelację między X i Y z R = - 0,7 , to korelacja pomiędzy Y i wyposażoną Y od prostych regresji liniowej Y = P 0 + β 1 XYY^1r10R1R=|r|XYr=0.7YY^Y=β^0+β^1Xbędzie wynosić a współczynnik determinacji wyniesie R 2 = 0,49, tj. prawie połowa zmienności odpowiedzi zostałaby wyjaśniona przez Twój model.R=0,7R2)=0,49

Jeśli nie termin przechwytujący włączono do modelu, a symbol jest niejednoznaczna. Zwykle jest to współczynnik determinacji, ale ogólnie będzie obliczany w inny sposób niż zwykle , więc należy zachować ostrożność podczas odczytywania danych wyjściowych z oprogramowania statystycznego. Wówczas nie jest już taki sam jak kwadrat wielokrotnej korelacji R , ani w przypadku dwuwymiarowym nie będzie równy r 2 !R2)Rr2)

Silverfish
źródło