Jaka jest różnica między regresją liniową na y przy xi x przy y?

97

Współczynnik korelacji Pearsona x i y jest taki sam, bez względu na to, czy obliczasz Pearson (x, y) czy pearson (y, x). Sugeruje to, że regresja liniowa y dla x lub x dla y powinna być taka sama, ale nie sądzę, żeby tak było.

Czy ktoś może rzucić światło na to, że związek nie jest symetryczny i jak to się ma do współczynnika korelacji Pearsona (który zawsze uważam za podsumowanie linii najlepszego dopasowania)?

użytkownik9097
źródło
1
Każda macierz korelacji będzie symetryczna, ponieważ . Zachęcam was do wypracowania matematyki, aby przekonać się, że to rzeczywiście prawda. Jeśli znasz zależność między i (lub cokolwiek zmienne miejsca to) nie jest symetryczna a priori , to może skorzystać, aby spojrzeć w innych metod analizy. x ycov(x,y)=cov(y,x)xy
Phillip Cloud,
14
Ciekawe uwagi zostały poruszone na temat pokrewnego pytania: Wpływ zmiany odpowiedzi i zmiennej objaśniającej w prostej regresji liniowej .
chl

Odpowiedzi:

159

Najlepszym sposobem na zastanowienie się nad tym jest wyobrażenie wykresu rozrzutu punktów na osi pionowej i reprezentowanym przez oś poziomą. Biorąc pod uwagę tę strukturę, widzisz chmurę punktów, które mogą być niejasno okrągłe lub wydłużone w elipsę. W regresji próbujesz znaleźć coś, co można nazwać „linią najlepszego dopasowania”. Jednakże, chociaż wydaje się to proste, musimy dowiedzieć się, co rozumiemy przez „najlepszy”, a to oznacza, że ​​musimy zdefiniować, co by było, gdyby linia była dobra, lub aby jedna linia była lepsza od drugiej itp. , musimy określić funkcję stratyxyx. Funkcja utraty pozwala nam powiedzieć, jak „złe” jest coś, a zatem, gdy zminimalizujemy to, tworzymy naszą linię tak dobrą, jak to możliwe, lub znajdujemy „najlepszą” linię.

Tradycyjnie, gdy przeprowadzamy analizę regresji, znajdujemy szacunkowe nachylenie i przechwytujemy, aby zminimalizować sumę błędów kwadratu . Są one zdefiniowane w następujący sposób:

SSE=i=1N(yi(β^0+β^1xi))2

W odniesieniu do naszego wykresu rozrzutu oznacza to, że minimalizujemy (sumę do kwadratu) odległości pionowe między obserwowanymi punktami danych a linią.

wprowadź opis zdjęcia tutaj

Z drugiej strony, całkowicie rozsądne jest regresowanie na , ale w takim przypadku umieścilibyśmy na osi pionowej i tak dalej. Gdybyśmy trzymali nasz wykres tak, jak jest (z na osi poziomej), cofnięcie na (ponownie, używając nieco dostosowanej wersji powyższego równania z przełączonymi i ) oznacza, że ​​zminimalizowalibyśmy sumę odległości poziomychy x x x y x x yxyxxxyxymiędzy zaobserwowanymi punktami danych a linią. Brzmi to bardzo podobnie, ale to nie to samo. (Sposobem na rozpoznanie tego jest zrobienie tego w obie strony, a następnie algebraiczne przekonwertowanie jednego zestawu oszacowań parametrów na warunki drugiego. Porównując pierwszy model z przearanżowaną wersją drugiego modelu, łatwo zauważyć, że są one nie ten sam.)

wprowadź opis zdjęcia tutaj

Zauważ, że żaden sposób nie wytworzyłby tej samej linii, którą intuicyjnie narysowalibyśmy, gdyby ktoś podał nam kawałek papieru milimetrowego z naniesionymi na nim punktami. W takim przypadku narysowalibyśmy linię prosto przez środek, ale minimalizacja odległości w pionie daje linię nieco płaską (tj. O płytszym nachyleniu), podczas gdy minimalizacja odległości w poziomie daje linię, która jest nieco bardziej stroma .

Korelacja jest symetryczna; jest tak samo skorelowane jak jest z . Korelację produktu z momentem Pearsona można jednak zrozumieć w kontekście regresji. Współczynnik korelacji jest nachyleniem linii regresji, gdy obie zmienne zostały najpierw znormalizowane . Oznacza to, że najpierw odejmowałeś średnią z każdej obserwacji, a następnie dzieliłeś różnice przez odchylenie standardowe. Chmura punktów danych będzie teraz wyśrodkowana na początku, a nachylenie będzie takie samo, niezależnie od tego, czy regresujesz na , czy nay y x r y x x yxyyxryxxy (ale zwróć uwagę na komentarz @DilipSarwate poniżej).

wprowadź opis zdjęcia tutaj

Dlaczego to ma takie znaczenie? Korzystając z naszej tradycyjnej funkcji straty, mówimy, że cały błąd występuje tylko w jednej ze zmiennych (mianowicie, ). Oznacza to, że mówimy, że jest mierzone bezbłędnie i stanowi zbiór wartości, na których nam zależy, ale że ma błąd próbkowaniax yyxy. To bardzo różni się od mówienia na odwrót. Było to ważne w ciekawym odcinku historycznym: na przełomie lat 70. i 80. w USA stwierdzono, że dyskryminowano kobiety w miejscu pracy, co zostało poparte analizami regresji wykazującymi, że kobiety o równym pochodzeniu (np. , kwalifikacje, doświadczenie itp.) były wypłacane średnio mniej niż mężczyźni. Krytycy (lub tylko ludzie, którzy byli bardzo dokładni) rozumowali, że jeśli to prawda, kobiety, które otrzymywały równe wynagrodzenie z mężczyznami, musiałyby być bardziej wykwalifikowane, ale kiedy to sprawdzono, stwierdzono, że chociaż wyniki były „znaczące”, gdy ocenili w jedną stronę, nie byli „znaczący”, gdy sprawdzono w drugą stronę, co wprawiło wszystkich w zawroty głowy. Zobacz tutaj za słynny artykuł, który próbował rozwiązać problem.


(Zaktualizowany znacznie później) Oto inny sposób myślenia o tym, który zbliża się do tematu za pomocą formuł zamiast wizualnie:

Wzór na nachylenie prostej linii regresji jest konsekwencją przyjętej funkcji straty. Jeśli używasz standardowej funkcji utraty zwykłych najmniejszych kwadratów (wspomnianej powyżej), możesz uzyskać wzór na nachylenie, które widzisz w każdym podręczniku wprowadzającym. Ta formuła może być prezentowana w różnych formach; jedną z nich nazywam „intuicyjną” formułą stoku. Rozważ ten formularz zarówno w przypadku regresji na , jak i regresji na : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Teraz mam nadzieję, że to oczywiste, że nie byłyby takie same, chyba że jest równy . Jeśli wariancje równe (np. Ponieważ najpierw ustandaryzowałeś zmienne), to również odchylenia standardowe, a zatem wariancje będą również równe . W tym przypadku, wyniesie Pearsona , który jest taki sam albo sposób na podstawie zasady przemienności : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x
gung
źródło
2
+1 za wzmiankę o minimalizacji funkcji straty. Alternatywy dla odległości pionowych lub poziomych obejmują użycie prostopadłej odległości do linii lub obszaru prostokąta, z których każda wytwarza różne linie regresji.
Henry
7
Nie sądzę, aby stwierdzenie „nachylenie byłoby takie samo, niezależnie od tego, czy cofnąłeś na , czy na ”. jest poprawne, jeśli konwencja polega na narysowaniu na osi poziomej na osi pionowej. W takim przypadku stoki są względem siebie wzajemne . Jeśli zastosujemy się do konwencji zmiennej niezależnej na osi poziomej i zmiennej zależnej na osi pionowej, to tak, nachylenie jest takie samo w obu kierunkach. Jednak zgodnie z tą konwencją wyjaśnienie odległości pionowych w stosunku do odległości poziomych nie ma zastosowania; jest to zawsze odległość pionowa punktów od linii. yxxyxy
Dilip Sarwate,
4
@DilipSarwate, to, co mówisz, jest prawdą. Moim celem przy użyciu terminów „pionowy” i „poziomy” jest wizualne uwidocznienie idei, że błąd jest rozumiany jako błąd próbkowania wy lub błąd próbkowania wx . Jeśli narysujemy na osi pionowej i cofniemy na , zminimalizowane odległości będą pionowe, ale zminimalizowany błąd nadal będzie błędem próbkowania w . Być może moja odpowiedź nie jest wystarczająco jasna; Mogę to edytować, jeśli mogę wymyślić lepszy sposób. xxyx
gung
1
Czy możesz powiedzieć, że w przypadku korelacji minimalizowana jest odległość ortogonalna między punktami a linią? (Mam na myśli linię przechodzącą od punktu do linii „regresji” i stojącą na niej ortogonalnie ).
vonjd
1
Korelacja Pearsona nie do końca pasuje, @vonjd. Okazuje się, że jest to równoważne nachyleniu dopasowanej linii najmniejszych kwadratów, gdy dane zostały najpierw znormalizowane. Pierwszy główny składnik, gdy są tylko 2 zmienne, a dane zostały najpierw znormalizowane, to rodzaj dopasowanej linii, która minimalizuje odległości ortogonalne. HTH
gung
12

Zilustruję odpowiedź za pomocą Rkodu i danych wyjściowych.

Najpierw konstruujemy losowy rozkład normalny y, ze średnią 5 i SD 1:

y <- rnorm(1000, mean=5, sd=1)

Następnie celowo tworzę drugi losowy rozkład normalny x, który jest po prostu pięciokrotnością wartości ydla każdego y:

x <- y*5

Z założenia mamy doskonałą korelację xi y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Jednakże, kiedy przeprowadzamy regresję, szukamy funkcji, która się odnosi, xa ywięc wyniki współczynników regresji zależą od tego, której używamy jako zmiennej zależnej, a której używamy jako zmiennej niezależnej. W tym przypadku nie pasujemy do punktu przecięcia, ponieważ utworzyliśmy xfunkcję ybez losowej odmiany:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Regresje mówią nam to y=0.2xi tamto x=5y, które oczywiście są równoważne. Współczynnik korelacji po prostu pokazuje nam, że istnieje ścisłe dopasowanie poziomów zmian jednostek między xi y, tak że (na przykład) wzrost o 1 jednostkę yzawsze powoduje wzrost o 0,2 jednostki x.

Michelle
źródło
6

Wgląd, że ponieważ korelacja Pearsona jest taka sama, niezależnie od tego, czy wykonujemy regresję x względem y, czy y względem x, jest dobra, powinniśmy uzyskać taką samą regresję liniową, jest dobra. Jest tylko nieznacznie niepoprawny i możemy go użyć, aby zrozumieć, co się faktycznie dzieje.

To jest równanie dla linii, którą staramy się uzyskać z naszej regresji

wprowadź opis zdjęcia tutaj

Równanie nachylenia tej linii wynika z korelacji Pearsona

wprowadź opis zdjęcia tutaj

Jest to równanie korelacji Pearsona. To samo, czy regresujemy x względem y czy y wobec x

wprowadź opis zdjęcia tutaj

Jednak patrząc wstecz na nasze drugie równanie dotyczące nachylenia, widzimy, że korelacja Pearsona nie jest jedynym terminem w tym równaniu. Jeśli obliczamy y względem x, mamy również odchylenie standardowe próbki y podzielone przez odchylenie standardowe próbki x. Gdybyśmy mieli obliczyć regresję x względem y, musielibyśmy odwrócić te dwa warunki.

Dość nerdy
źródło
4

W przypadku takich pytań łatwo jest złapać się na problemy techniczne, dlatego chciałbym skupić się konkretnie na pytaniu w tytule wątku, które brzmi : Jaka jest różnica między regresją liniową na y przy xi x przy y ?

Zastanów się przez chwilę (uproszczony) model ekonometryczny z teorii kapitału ludzkiego (link prowadzi do artykułu laureata nagrody Nobla Gary'ego Beckera). Załóżmy, że określamy model o następującej formie: Model ten można interpretować jako związek przyczynowy między wynagrodzeniem a wykształceniem. Co ważne, przyczynowość w tym kontekście oznacza, że ​​kierunek przyczynowości biegnie od edukacji do płac, a nie na odwrót. Jest to ukryte w sposobie sformułowania modelu; zmienna zależna to płace, a zmienna niezależna to lata edukacji.

wages=b0+b1 years of education+error

Teraz, jeśli zrobimy odwrócenie równania ekonometrycznego (to znaczy zmień y na x na x na y), tak że model będzie wyglądał tak: następnie domyślnie w formułowaniu równania ekonometrycznego jest to, że mówimy, że kierunek przyczynowości biegnie od płacy do edukacji.

years of education=b0+b1 wages+error

Jestem pewien, że możesz wymyślić więcej takich przykładów (także poza sferą ekonomii), ale jak widać interpretacja modelu może ulec znacznej zmianie, gdy zmienimy regresję y na x na x na y.

Tak więc, aby odpowiedzieć na pytanie: Jaka jest różnica między regresją liniową na y zx i x zy? , możemy powiedzieć, że interpretacja równania regresji zmienia się, gdy regresujemy x na y zamiast y na x. Nie powinniśmy przeoczyć tego punktu, ponieważ model z interpretacją dźwięku może szybko zmienić się w taki, który nie ma żadnego sensu lub nie ma go wcale.

Graeme Walsh
źródło
3

Istnieje bardzo ciekawe zjawisko na ten temat. Po wymianie xiy wprawdzie współczynnik regresji zmienia się, ale statystyka t / statystyka F i poziom istotności dla współczynnika się nie zmieniają. Dotyczy to również regresji wielorakiej, w której wymieniamy y z jedną ze zmiennych niezależnych.

Wynika to z delikatnej zależności między statystyką F a (częściowym) współczynnikiem korelacji. Ta relacja naprawdę dotyka rdzenia teorii modeli liniowych. Więcej szczegółów na temat tego wniosku znajduje się w moim notatniku: Dlaczego zamiana y i x nie ma wpływu na p

Prekop
źródło
Poniższy wątek może być interesujący / mylący: Zamiana X i Y w regresji zawierającej predyktor grupowania .
gung
2
Artykuł „Dlaczego zamiana y i x nie ma wpływu na p” nie jest już dostępny. Czy dodasz to z powrotem?
JetLag
1

Rozwijając doskonałą odpowiedź @ gung:

ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|

statmerkur
źródło
1

 Doing regression of y given x

minbE(YbX)2

podczas gdy dla : , które można przepisać jako:doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

Należy również zauważyć, że dwa różne problemy mogą mieć to samo rozwiązanie.

SiXUlm
źródło
1
Chociaż jest to poprawne - i dziękuję za te obserwacje - pozostawiasz czytelników w zawieszeniu: czy możesz wyjaśnić, dlaczego rozwiązania tych dwóch różnych problemów wyglądają koniecznie inaczej?
whuber
1
Masz rację. Właściwie myślałem o tym, ale nie mógł znaleźć prosty (i mniej matematyczny) sposób wyjaśnić, dlaczego dwa rozwiązania zawsze są różne, dlatego starałem się zrobić z tymi dwoma problemami jak najbardziej podobne. Tutaj staram się przedstawić inny punkt widzenia. look
SiXUlm,
w jaki sposób ostatnia linia jest równoważna środkowej linii? Jeśli pomnożysz 1 / b ^ 2, otrzymasz E (X - Y / b) ^ 2 nie E (X - Yb) ^ 2
Austin Shin
@AustinShin faktycznie trochę oszukiwałem tutaj. W środkowej linii wyjmuję , a następnie zmieniam zmienną: , co daje mi ostatnią linię. b : = 1 / bbb:=1/b
SiXUlm
+1: wyraźnie wyraziłeś swój punkt teraz!
whuber
0

Cóż, to prawda, że ​​dla prostej regresji dwuwymiarowej współczynnik korelacji liniowej i kwadrat R będą takie same dla obu równań. Ale nachylenia będą r Sy / Sx lub r Sx / Sy, które nie są wzajemne, chyba że r = 1.

użytkownik175531
źródło
1
„... lub ” ... Lub być bardziej zwięzłym, „... chyba że ”r 2 = 11r2=1
Glen_b
-7

Podstawową ideą regresji może być „przyczyna i skutek” lub „niezależny i zależny”. Normalna praktyka umieszczania zmiennej niezależnej na osi X i zmiennej zależnej na osi Y jest reprezentowana przez Y = mX + c. Czy nachylenie ma być nazywane jako m (X na Y) czy (Y na X), a regresja jako: (X na Y) lub (Y na X). Jest on obsługiwany na dwa sposoby, co nie jest dobre i wymaga wyjaśnienia. Modelerzy często używają wykresów rozrzutu, aby ocenić, czy seria symulowana pasuje do serii obserwowanej; i użycie linii regresji jest nieuniknione. tutaj nie ma klauzuli przyczynowej. Idąc z tą koniecznością, nieme pytanie zadawane przez wątek stoi. Innymi słowy, proszę wyjaśnić, jak wywołać normalną analizę regresji: X na Y; lub Y na X?, przekraczając przyczynową odpowiedź. To nie jest odpowiedź na główny wątek; ale równoległe pytanie.

M. Ranjit kumar
źródło
6
-1 Poza tym, że jest niespójna, ta odpowiedź pomija kluczową ideę, tak umiejętnie wyjaśnioną w najlepszej odpowiedzi: model prawdopodobieństwa zmienności danych określa, czy regresja jest znacząca i określa, która zmienna może być uważana za zmienną zależną.
whuber
Ten respondent może powtarzać jedną interpretację co prawda nieco niejasnego pytania tytułowego, w kategoriach zwykłego etykietowania. W przypadku problemu o postaci y = mx + b, czy zazwyczaj opisuje się związek jako „regresję y na x” (tak) czy jako „regresję x na y” (nie)? Odpowiedź na pytanie terminologiczne znajduje się na stronie stats.stackexchange.com/questions/207425/… .
InColorado