Jaka jest różnica między korelacją a prostą regresją liniową?

Odpowiedzi:

114

Jaka jest różnica między korelacją między i a regresją liniową przewidującą z ?T Y XXYYX

Po pierwsze, niektóre podobieństwa :

  • znormalizowany współczynnik regresji jest taki sam jak współczynnik korelacji Pearsona
  • Kwadrat współczynnika korelacji Pearsona jest taki sam jak w prostej regresji liniowejR2
  • Ani prosta regresja liniowa, ani korelacja nie odpowiadają bezpośrednio na pytania o przyczynowość. Ten punkt jest ważny, ponieważ poznałem ludzi, którzy myślą, że mogą magicznie proste regresji pozwalają na stwierdzenie, że powoduje .YXY

Po drugie, niektóre różnice :

  • Równanie regresji (tj. ) można wykorzystać do prognozowania na podstawie wartościY Xa+bXYX
  • Chociaż korelacja zazwyczaj odnosi się do relacji liniowej, może odnosić się do innych form zależności, takich jak relacje wielomianowe lub prawdziwie nieliniowe
  • Podczas gdy korelacja zazwyczaj odnosi się do współczynnika korelacji Pearsona, istnieją inne typy korelacji, takie jak Spearmana.
Jeromy Anglim
źródło
Cześć Jeromy, dziękuję za wyjaśnienie, ale wciąż mam pytanie: co jeśli nie będę musiał przewidywać i chcę tylko wiedzieć, jak blisko są dwie zmienne i w jakim kierunku / sile? Czy jest jeszcze coś innego, używając tych dwóch technik?
yue86231
3
@ yue86231 To brzmi, jakby miara korelacji byłaby bardziej odpowiednia.
Jeromy Anglim
5
(+1) na podobieństwo może być użyteczne dodanie że standardowe testy na hipotezie „korelacji = 0” lub równoważnie „Nachylenie = 0” (dla regresji w dowolnej kolejności), takich jak przeprowadzane przez lmi cor.testw R, da identyczne wartości p.
whuber
3
Zgadzam się, że należy dodać sugestię z @whuber, ale na bardzo podstawowym poziomie warto zauważyć, że znak nachylenia regresji i współczynnik korelacji są równe. Jest to prawdopodobnie jedna z pierwszych rzeczy, które większość ludzi dowiaduje się o związku między korelacją a „linią najlepszego dopasowania” (nawet jeśli jeszcze nie nazywają tego „regresją”), ale myślę, że warto to zauważyć. Dla różnic fakt, że otrzymujesz tę samą odpowiedź, korelację X z Y lub odwrotnie, ale że regresja Y na X różni się od regresji X na Y, również zasługuje na wzmiankę.
Silverfish,
36

Oto odpowiedź, którą opublikowałem na stronie graphpad.com :

Korelacja i regresja liniowa nie są takie same. Rozważ te różnice:

  • Korelacja określa ilościowo stopień powiązania dwóch zmiennych. Korelacja nie pasuje do linii przechodzącej przez dane.
  • Dzięki korelacji nie musisz myśleć o przyczynie i skutku. Po prostu obliczasz, jak dobrze dwie zmienne są ze sobą powiązane. W przypadku regresji musisz pomyśleć o przyczynie i skutku, ponieważ linia regresji jest określana jako najlepszy sposób przewidywania Y na podstawie X.
  • W przypadku korelacji nie ma znaczenia, którą z dwóch zmiennych nazwiesz „X”, a którą „Y”. Otrzymasz ten sam współczynnik korelacji, jeśli zamienisz dwa. W przypadku regresji liniowej bardzo ważna jest decyzja, którą zmienną nazywasz „X”, a którą „Y”, ponieważ uzyskasz inną linię najlepiej dopasowaną, jeśli zamienisz te dwie. Linia, która najlepiej przewiduje Y z X, nie jest taka sama jak linia, która przewiduje X z Y (chyba że masz doskonałe dane bez rozproszenia).
  • Korelacja jest prawie zawsze stosowana podczas pomiaru obu zmiennych. Rzadko jest właściwe, gdy jedna zmienna jest czymś, co eksperymentujesz. Przy regresji liniowej zmienna X jest zwykle czymś, co eksperymentujesz (czas, stężenie ...), a zmienna Y jest czymś, co mierzysz.
Harvey Motulsky
źródło
13
„najlepszy sposób przewidywania Y z X” nie ma nic wspólnego z przyczyną i skutkiem: X może być przyczyną Y lub odwrotnie. Można rozumować od przyczyn do skutków (odliczenie) lub od skutków do przyczyn (uprowadzenie).
Neil G,
4
„jeśli zmienisz dwa, uzyskasz inną linię najlepiej dopasowaną” jest trochę mylące; znormalizowane stoki będą w obu przypadkach takie same.
xenocyon
26

W przypadku pojedynczego predyktora regresji liniowej znormalizowane nachylenie ma taką samą wartość jak współczynnik korelacji. Zaletą regresji liniowej jest to, że związek można opisać w taki sposób, aby można było przewidzieć (na podstawie zależności między dwiema zmiennymi) wynik na przewidywanej zmiennej, biorąc pod uwagę dowolną określoną wartość zmiennej predykcyjnej. W szczególności jedna informacja, regresja liniowa daje ci, że korelacja nie jest przecięciem, wartością przewidywanej zmiennej, gdy predyktorem jest 0.

Krótko mówiąc - dają one identyczne wyniki obliczeniowo, ale jest więcej elementów, które można interpretować w prostej regresji liniowej. Jeśli chcesz po prostu scharakteryzować wielkość związku między dwiema zmiennymi, użyj korelacji - jeśli chcesz przewidzieć lub wyjaśnić swoje wyniki w kategoriach określonych wartości, prawdopodobnie chcesz regresji.

russellpierce
źródło
„W szczególności jedna informacja, regresja liniowa daje ci do zrozumienia, że ​​korelacja nie jest przecinaniem”… Bardzo duża różnica!
SIslam
Cóż, patrząc wstecz na to, to prawda, że ​​regresja zapewnia przechwytywanie, ponieważ jest to domyślne ustawienie dla wielu pakietów statystyk. Można łatwo obliczyć regresję bez przechwytywania.
russellpierce
Tak, można łatwo obliczyć regresję bez przechwytywania, ale rzadko byłoby to znaczące: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen 10.10.17
@kjetilbhalvorsen Z wyjątkiem przypadku opisanego przeze mnie podczas montażu standardowego zbocza. Pojęcie przechwytywania w znormalizowanym równaniu regresji wynosi zawsze 0. Dlaczego? Ponieważ zarówno IV, jak i DV zostały ustandaryzowane do wyników jednostkowych - w rezultacie punkt przecięcia jest definitywnie 0. Dokładnie taki przypadek opisany w odpowiedzi. (odpowiednik standaryzacji IV i DV). Kiedy zarówno IV, jak i DV zostały znormalizowane do 0, punkt przecięcia jest definitywnie 0.
russellpierce 13.10.17
11

Analiza korelacji określa jedynie ilościowo zależność między dwiema zmiennymi, ignorując zmienną zależną i niezależną. Ale przed zastosowaniem regresji należy sprawdzić wpływ tej zmiennej, którą chcesz sprawdzić na drugiej zmiennej.


źródło
9

Wszystkie dotychczasowe odpowiedzi dostarczają ważnych informacji, ale nie należy zapominać, że można przekształcić parametry jednego w drugi:

y=mx+b

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Możesz więc przekształcić się w siebie nawzajem, skalując i przesuwając ich parametry.

Przykład w R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
źródło
3

Z korelacji możemy uzyskać jedynie indeks opisujący liniową zależność między dwiema zmiennymi; w regresji możemy przewidzieć związek między więcej niż dwiema zmiennymi i możemy go użyć do zidentyfikowania, które zmienne x mogą przewidzieć zmienną wynikową y .

radia
źródło
3

Cytując Altman DG, „Praktyczne statystyki badań medycznych” Chapman i Hall, 1991, strona 321: „Korelacja ogranicza zbiór danych do pojedynczej liczby, która nie ma bezpośredniego związku z rzeczywistymi danymi. Regresja jest znacznie bardziej przydatną metodą, z wyniki, które są wyraźnie związane z uzyskanym pomiarem. Siła relacji jest wyraźna, a niepewność można wyraźnie zobaczyć z przedziałów ufności lub przedziałów prognoz ”

Carlo Lazzaro
źródło
3
Chociaż jestem sympatyczny wobec Altmana - metody regresji są często bardziej odpowiednie niż korelacja w wielu przypadkach - ten cytat ustanawia argument słomianego człowieka. W regresji OLS wytworzone informacje są równoważne z informacjami uzyskanymi w wyniku obliczeń korelacji (wszystkie pierwsze i drugie momenty dwuwymiarowe i ich błędy standardowe), a współczynnik korelacji zapewnia te same informacje, co nachylenie regresji. Oba podejścia różnią się nieco w podstawowych modelach danych, które zakładają i w ich interpretacji, ale nie w sposób, w jaki twierdzą Altman.
whuber
1

Analiza regresji to technika badania przyczyny efektu zależności między dwiema zmiennymi. podczas gdy analiza korelacji jest techniką badania kwantyfikacji relacji między dwiema zmiennymi.

Kanon Das Zinku
źródło
6
Witamy w CV! Biorąc pod uwagę, że jest już tak wiele odpowiedzi na to pytanie, czy chcesz na nie rzucić okiem i sprawdzić, czy twoje coś nowego? Jeśli masz więcej do powiedzenia, możesz to zrobić, aby to zrobić.
Scortchi
0

Korelacja jest indeksem (tylko jedną liczbą) siły relacji. Regresja jest analizą (oszacowanie parametrów modelu i test statystyczny ich znaczenia) adekwatności konkretnego związku funkcjonalnego. Rozmiar korelacji jest związany z dokładnością prognoz regresji.

Jdub
źródło
1
Nie, nie jest. Korelacja daje nam ograniczony związek, ale nie odnosi się do tego, jak dokładne mogą być prognozy. R2 daje to.
SmallChess,
-3

Korelacja to termin w statystykach, który określa, czy istnieje związek między dwoma, a następnie stopień relacji. Jego zakres wynosi od -1 do +1. Podczas gdy regresja oznacza powrót do średniej. Na podstawie regresji przewidujemy wartość, utrzymując jedną zmienną zależną, a drugą niezależną, ale należy wyjaśnić wartość zmiennej, którą chcemy przewidzieć.

Shakir Sabir
źródło
6
Witaj @shakir i witaj w Cross Validated! Prawdopodobnie zauważyłeś, że jest to stare pytanie (z 2010 r.) I udzielono już siedmiu (!) Odpowiedzi. Dobrym pomysłem byłoby upewnienie się, że nowa odpowiedź dodaje coś ważnego do dyskusji, która nie była wcześniej omawiana. W tej chwili nie jestem pewien, czy tak jest.
ameba