Jak można uzyskać dobry model regresji liniowej, gdy nie ma istotnej korelacji między wynikiem a predyktorami?

17

Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest możliwe?

Zaratruta
źródło
3
To świetne odpowiedzi, ale w pytaniu brakuje wielu szczegółów, które odpowiedzi starają się wypełnić. Największe pytanie w moim umyśle brzmi: „dobra korelacja”.
Ciepła woda

Odpowiedzi:

35

Para zmiennych może wykazywać wysoką korelację częściową (korelacja uwzględniająca wpływ innych zmiennych), ale korelację niską lub nawet zerową - marginalną (korelacja parami).

Co oznacza, że ​​korelacja parami między odpowiedzią y i pewnym predyktorem x może mieć niewielką wartość przy identyfikowaniu odpowiednich zmiennych o (liniowej) wartości „predykcyjnej” wśród zbioru innych zmiennych.

Rozważ następujące dane:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

Korelacja między y i x wynosi . Gdybym narysować linię najmniejszych kwadratów, to idealnie pozioma i R 2 jest naturalnie będzie 0 .0R20

Ale gdy dodasz nową zmienną g, która wskazuje, z której z dwóch grup pochodzą obserwacje, x staje się niezwykle pouczające:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

liniowego modelu regresji zarówno z X i g zmiennych będzie to 1.R2

Plot of y vs x showing a lack of pairwise linear relationship but with color indicating the group; within each group the relationship is perfect

Możliwe jest, że coś takiego się stanie z każdą ze zmiennych w modelu - wszystkie mają małą korelację par z odpowiedzią, ale model z nimi wszystkimi jest bardzo dobry w przewidywaniu odpowiedzi.

Dodatkowe czytanie:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b - Przywróć Monikę
źródło
Czy takie zachowanie może się zdarzyć w prawdziwym modelu liniowym? Tutaj związek między kolorem (g = 0/1) a odpowiedzią y wydaje się być nieliniowy. Jednak to, co może się zdarzyć, że modelu bez g może być (arbitralnie?) Niższy niż R 2 modelu z g . R2gR2g
Vimal
Jezu, powinienem był dokładnie przyjrzeć się modelowi :) . Zadrap to pytanie! y=x41g
Vimal
To był rzeczywiście model, na podstawie którego powstała odpowiedź; ale możesz natychmiast zobaczyć, że jest liniowy, po prostu wyobrażając sobie podniesienie niebieskiego punktu na jedną dowolną jednostkę (w kierunku do ciebie z powierzchni ekranu, wzdłuż nowego kierunku osi „g”) i zobaczenie płaszczyzny przechodzącej przez sześć punktów.
Glen_b
1
W regresji zmienne X są uwarunkowane i często mogą być kontrolowane, więc „niezależność” nie jest na ogół tym, czego się szuka. Niezależnie od zaprojektowanych eksperymentów, niezależne predyktory prawie nigdy nie są widoczne, a jeśli masz zaprojektowane eksperymenty, predyktory nie są zmiennymi losowymi, więc „niezależność” (w sensie statystycznym) nie jest tym, na co patrzysz - raczej czymś jak prawdopodobnie wzajemna ortogonalność. ... ctd
Glen_b -Reinstate Monica
1
ctd ... Jeśli naprawdę masz na myśli (wzajemną / zmienną p) niezależność statystyczną wszystkich predyktorów, to nie uzyskasz dokładnie zerowych współczynników przy regresji jednoczynnikowej w ten sposób, ale nie potrzebujesz również całkowitej separacji jak w powyższym przykładzie .
Glen_b
2

Zakładam, że trenujesz model regresji wielokrotnej, w którym masz wiele zmiennych niezależnych , X 2 , ..., regresowanych na Y. Prosta odpowiedź tutaj jest taka, że ​​korelacja par jest jak prowadzenie nieokreślonego modelu regresji. W związku z tym pominąłeś ważne zmienne.X1X2

Mówiąc dokładniej, gdy stwierdzasz „nie ma zmiennej o dobrej korelacji z przewidywaną zmienną”, brzmi to tak, jakbyś sprawdzał korelację par pomiędzy każdą zmienną niezależną ze zmienną zależną Y. Jest to możliwe, gdy wprowadza ważną wartość , nowe informacje i pomaga wyjaśnić pomyłkę między X 1 i Y. Jednak przy tym pomieszaniu możemy nie zobaczyć liniowej korelacji par X między Y 1 i Y. Możesz również sprawdzić związek między korelacją częściową ρ x 1 , y | x 2 i regresja wielokrotna y = β 1X2X1X1ρx1,y|x2 . Regresja wielokrotna ma bliższy związek z korelacją częściową niż korelacja par, ρ x 1 , y .y=β1X1+β2X2+ϵρx1,y

Ray Yang
źródło
0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2Y, even though each one has just a tiny correlation with Y individually.

Acccumulation
źródło