Współczynnik korelacji Pearsona x i y jest taki sam, bez względu na to, czy obliczasz Pearson (x, y) czy pearson (y, x). Sugeruje to, że regresja liniowa y dla x lub x dla y powinna być taka sama, ale nie sądzę, żeby tak było.
Czy ktoś może rzucić światło na to, że związek nie jest symetryczny i jak to się ma do współczynnika korelacji Pearsona (który zawsze uważam za podsumowanie linii najlepszego dopasowania)?
regression
correlation
linear-model
pearson-r
użytkownik9097
źródło
źródło
Odpowiedzi:
Najlepszym sposobem na zastanowienie się nad tym jest wyobrażenie wykresu rozrzutu punktów na osi pionowej i reprezentowanym przez oś poziomą. Biorąc pod uwagę tę strukturę, widzisz chmurę punktów, które mogą być niejasno okrągłe lub wydłużone w elipsę. W regresji próbujesz znaleźć coś, co można nazwać „linią najlepszego dopasowania”. Jednakże, chociaż wydaje się to proste, musimy dowiedzieć się, co rozumiemy przez „najlepszy”, a to oznacza, że musimy zdefiniować, co by było, gdyby linia była dobra, lub aby jedna linia była lepsza od drugiej itp. , musimy określić funkcję stratyxy x . Funkcja utraty pozwala nam powiedzieć, jak „złe” jest coś, a zatem, gdy zminimalizujemy to, tworzymy naszą linię tak dobrą, jak to możliwe, lub znajdujemy „najlepszą” linię.
Tradycyjnie, gdy przeprowadzamy analizę regresji, znajdujemy szacunkowe nachylenie i przechwytujemy, aby zminimalizować sumę błędów kwadratu . Są one zdefiniowane w następujący sposób:
W odniesieniu do naszego wykresu rozrzutu oznacza to, że minimalizujemy (sumę do kwadratu) odległości pionowe między obserwowanymi punktami danych a linią.
Z drugiej strony, całkowicie rozsądne jest regresowanie na , ale w takim przypadku umieścilibyśmy na osi pionowej i tak dalej. Gdybyśmy trzymali nasz wykres tak, jak jest (z na osi poziomej), cofnięcie na (ponownie, używając nieco dostosowanej wersji powyższego równania z przełączonymi i ) oznacza, że zminimalizowalibyśmy sumę odległości poziomychy x x x y x x yx y x x x y x y między zaobserwowanymi punktami danych a linią. Brzmi to bardzo podobnie, ale to nie to samo. (Sposobem na rozpoznanie tego jest zrobienie tego w obie strony, a następnie algebraiczne przekonwertowanie jednego zestawu oszacowań parametrów na warunki drugiego. Porównując pierwszy model z przearanżowaną wersją drugiego modelu, łatwo zauważyć, że są one nie ten sam.)
Zauważ, że żaden sposób nie wytworzyłby tej samej linii, którą intuicyjnie narysowalibyśmy, gdyby ktoś podał nam kawałek papieru milimetrowego z naniesionymi na nim punktami. W takim przypadku narysowalibyśmy linię prosto przez środek, ale minimalizacja odległości w pionie daje linię nieco płaską (tj. O płytszym nachyleniu), podczas gdy minimalizacja odległości w poziomie daje linię, która jest nieco bardziej stroma .
Korelacja jest symetryczna; jest tak samo skorelowane jak jest z . Korelację produktu z momentem Pearsona można jednak zrozumieć w kontekście regresji. Współczynnik korelacji jest nachyleniem linii regresji, gdy obie zmienne zostały najpierw znormalizowane . Oznacza to, że najpierw odejmowałeś średnią z każdej obserwacji, a następnie dzieliłeś różnice przez odchylenie standardowe. Chmura punktów danych będzie teraz wyśrodkowana na początku, a nachylenie będzie takie samo, niezależnie od tego, czy regresujesz na , czy nay y x r y x x yx y y x r y x x y (ale zwróć uwagę na komentarz @DilipSarwate poniżej).
Dlaczego to ma takie znaczenie? Korzystając z naszej tradycyjnej funkcji straty, mówimy, że cały błąd występuje tylko w jednej ze zmiennych (mianowicie, ). Oznacza to, że mówimy, że jest mierzone bezbłędnie i stanowi zbiór wartości, na których nam zależy, ale że ma błąd próbkowaniax yy x y . To bardzo różni się od mówienia na odwrót. Było to ważne w ciekawym odcinku historycznym: na przełomie lat 70. i 80. w USA stwierdzono, że dyskryminowano kobiety w miejscu pracy, co zostało poparte analizami regresji wykazującymi, że kobiety o równym pochodzeniu (np. , kwalifikacje, doświadczenie itp.) były wypłacane średnio mniej niż mężczyźni. Krytycy (lub tylko ludzie, którzy byli bardzo dokładni) rozumowali, że jeśli to prawda, kobiety, które otrzymywały równe wynagrodzenie z mężczyznami, musiałyby być bardziej wykwalifikowane, ale kiedy to sprawdzono, stwierdzono, że chociaż wyniki były „znaczące”, gdy ocenili w jedną stronę, nie byli „znaczący”, gdy sprawdzono w drugą stronę, co wprawiło wszystkich w zawroty głowy. Zobacz tutaj za słynny artykuł, który próbował rozwiązać problem.
(Zaktualizowany znacznie później) Oto inny sposób myślenia o tym, który zbliża się do tematu za pomocą formuł zamiast wizualnie:
Wzór na nachylenie prostej linii regresji jest konsekwencją przyjętej funkcji straty. Jeśli używasz standardowej funkcji utraty zwykłych najmniejszych kwadratów (wspomnianej powyżej), możesz uzyskać wzór na nachylenie, które widzisz w każdym podręczniku wprowadzającym. Ta formuła może być prezentowana w różnych formach; jedną z nich nazywam „intuicyjną” formułą stoku. Rozważ ten formularz zarówno w przypadku regresji na , jak i regresji na :y x x y
źródło
Zilustruję odpowiedź za pomocą
R
kodu i danych wyjściowych.Najpierw konstruujemy losowy rozkład normalny
y
, ze średnią 5 i SD 1:Następnie celowo tworzę drugi losowy rozkład normalny
x
, który jest po prostu pięciokrotnością wartościy
dla każdegoy
:Z założenia mamy doskonałą korelację
x
iy
:Jednakże, kiedy przeprowadzamy regresję, szukamy funkcji, która się odnosi,
x
ay
więc wyniki współczynników regresji zależą od tego, której używamy jako zmiennej zależnej, a której używamy jako zmiennej niezależnej. W tym przypadku nie pasujemy do punktu przecięcia, ponieważ utworzyliśmyx
funkcjęy
bez losowej odmiany:Regresje mówią nam to
y=0.2x
i tamtox=5y
, które oczywiście są równoważne. Współczynnik korelacji po prostu pokazuje nam, że istnieje ścisłe dopasowanie poziomów zmian jednostek międzyx
iy
, tak że (na przykład) wzrost o 1 jednostkęy
zawsze powoduje wzrost o 0,2 jednostkix
.źródło
Wgląd, że ponieważ korelacja Pearsona jest taka sama, niezależnie od tego, czy wykonujemy regresję x względem y, czy y względem x, jest dobra, powinniśmy uzyskać taką samą regresję liniową, jest dobra. Jest tylko nieznacznie niepoprawny i możemy go użyć, aby zrozumieć, co się faktycznie dzieje.
To jest równanie dla linii, którą staramy się uzyskać z naszej regresji
Równanie nachylenia tej linii wynika z korelacji Pearsona
Jest to równanie korelacji Pearsona. To samo, czy regresujemy x względem y czy y wobec x
Jednak patrząc wstecz na nasze drugie równanie dotyczące nachylenia, widzimy, że korelacja Pearsona nie jest jedynym terminem w tym równaniu. Jeśli obliczamy y względem x, mamy również odchylenie standardowe próbki y podzielone przez odchylenie standardowe próbki x. Gdybyśmy mieli obliczyć regresję x względem y, musielibyśmy odwrócić te dwa warunki.
źródło
W przypadku takich pytań łatwo jest złapać się na problemy techniczne, dlatego chciałbym skupić się konkretnie na pytaniu w tytule wątku, które brzmi : Jaka jest różnica między regresją liniową na y przy xi x przy y ?
Zastanów się przez chwilę (uproszczony) model ekonometryczny z teorii kapitału ludzkiego (link prowadzi do artykułu laureata nagrody Nobla Gary'ego Beckera). Załóżmy, że określamy model o następującej formie: Model ten można interpretować jako związek przyczynowy między wynagrodzeniem a wykształceniem. Co ważne, przyczynowość w tym kontekście oznacza, że kierunek przyczynowości biegnie od edukacji do płac, a nie na odwrót. Jest to ukryte w sposobie sformułowania modelu; zmienna zależna to płace, a zmienna niezależna to lata edukacji.
Teraz, jeśli zrobimy odwrócenie równania ekonometrycznego (to znaczy zmień y na x na x na y), tak że model będzie wyglądał tak: następnie domyślnie w formułowaniu równania ekonometrycznego jest to, że mówimy, że kierunek przyczynowości biegnie od płacy do edukacji.
Jestem pewien, że możesz wymyślić więcej takich przykładów (także poza sferą ekonomii), ale jak widać interpretacja modelu może ulec znacznej zmianie, gdy zmienimy regresję y na x na x na y.
Tak więc, aby odpowiedzieć na pytanie: Jaka jest różnica między regresją liniową na y zx i x zy? , możemy powiedzieć, że interpretacja równania regresji zmienia się, gdy regresujemy x na y zamiast y na x. Nie powinniśmy przeoczyć tego punktu, ponieważ model z interpretacją dźwięku może szybko zmienić się w taki, który nie ma żadnego sensu lub nie ma go wcale.
źródło
Istnieje bardzo ciekawe zjawisko na ten temat. Po wymianie xiy wprawdzie współczynnik regresji zmienia się, ale statystyka t / statystyka F i poziom istotności dla współczynnika się nie zmieniają. Dotyczy to również regresji wielorakiej, w której wymieniamy y z jedną ze zmiennych niezależnych.
Wynika to z delikatnej zależności między statystyką F a (częściowym) współczynnikiem korelacji. Ta relacja naprawdę dotyka rdzenia teorii modeli liniowych. Więcej szczegółów na temat tego wniosku znajduje się w moim notatniku: Dlaczego zamiana y i x nie ma wpływu na p
źródło
Rozwijając doskonałą odpowiedź @ gung:
źródło
podczas gdy dla : , które można przepisać jako:doing regression of x given y minbE(X−bY)2
Należy również zauważyć, że dwa różne problemy mogą mieć to samo rozwiązanie.
źródło
Cóż, to prawda, że dla prostej regresji dwuwymiarowej współczynnik korelacji liniowej i kwadrat R będą takie same dla obu równań. Ale nachylenia będą r Sy / Sx lub r Sx / Sy, które nie są wzajemne, chyba że r = 1.
źródło
Podstawową ideą regresji może być „przyczyna i skutek” lub „niezależny i zależny”. Normalna praktyka umieszczania zmiennej niezależnej na osi X i zmiennej zależnej na osi Y jest reprezentowana przez Y = mX + c. Czy nachylenie ma być nazywane jako m (X na Y) czy (Y na X), a regresja jako: (X na Y) lub (Y na X). Jest on obsługiwany na dwa sposoby, co nie jest dobre i wymaga wyjaśnienia. Modelerzy często używają wykresów rozrzutu, aby ocenić, czy seria symulowana pasuje do serii obserwowanej; i użycie linii regresji jest nieuniknione. tutaj nie ma klauzuli przyczynowej. Idąc z tą koniecznością, nieme pytanie zadawane przez wątek stoi. Innymi słowy, proszę wyjaśnić, jak wywołać normalną analizę regresji: X na Y; lub Y na X?, przekraczając przyczynową odpowiedź. To nie jest odpowiedź na główny wątek; ale równoległe pytanie.
źródło