Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest możliwe?
17
Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest możliwe?
Odpowiedzi:
Para zmiennych może wykazywać wysoką korelację częściową (korelacja uwzględniająca wpływ innych zmiennych), ale korelację niską lub nawet zerową - marginalną (korelacja parami).
Co oznacza, że korelacja parami między odpowiedzią y i pewnym predyktorem x może mieć niewielką wartość przy identyfikowaniu odpowiednich zmiennych o (liniowej) wartości „predykcyjnej” wśród zbioru innych zmiennych.
Rozważ następujące dane:
Korelacja między y i x wynosi . Gdybym narysować linię najmniejszych kwadratów, to idealnie pozioma i R 2 jest naturalnie będzie 0 .0 R2 0
Ale gdy dodasz nową zmienną g, która wskazuje, z której z dwóch grup pochodzą obserwacje, x staje się niezwykle pouczające:
liniowego modelu regresji zarówno z X i g zmiennych będzie to 1.R2
Możliwe jest, że coś takiego się stanie z każdą ze zmiennych w modelu - wszystkie mają małą korelację par z odpowiedzią, ale model z nimi wszystkimi jest bardzo dobry w przewidywaniu odpowiedzi.
Dodatkowe czytanie:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
źródło
Zakładam, że trenujesz model regresji wielokrotnej, w którym masz wiele zmiennych niezależnych , X 2 , ..., regresowanych na Y. Prosta odpowiedź tutaj jest taka, że korelacja par jest jak prowadzenie nieokreślonego modelu regresji. W związku z tym pominąłeś ważne zmienne.X1 X2
Mówiąc dokładniej, gdy stwierdzasz „nie ma zmiennej o dobrej korelacji z przewidywaną zmienną”, brzmi to tak, jakbyś sprawdzał korelację par pomiędzy każdą zmienną niezależną ze zmienną zależną Y. Jest to możliwe, gdy wprowadza ważną wartość , nowe informacje i pomaga wyjaśnić pomyłkę między X 1 i Y. Jednak przy tym pomieszaniu możemy nie zobaczyć liniowej korelacji par X między Y 1 i Y. Możesz również sprawdzić związek między korelacją częściową ρ x 1 , y | x 2 i regresja wielokrotna y = β 1X2 X1 X1 ρx1,y|x2 . Regresja wielokrotna ma bliższy związek z korelacją częściową niż korelacja par, ρ x 1 , y .y=β1X1+β2X2+ϵ ρx1,y
źródło
źródło