Używam wielu regresji liniowej do opisania zależności między Y a X1, X2.
Z teorii zrozumiałem, że regresja wielokrotna zakłada zależności liniowe między Y a każdym z X (Y i X1, Y i X2). Nie używam żadnej transformacji X.
Mam więc model z R = 0,45 i wszystkimi znaczącymi X (P <0,05). Potem wykreśliłem Y względem X1. Nie rozumiem, dlaczego czerwone kółka, które są przewidywaniami modelu, nie tworzą linii. Jak powiedziałem wcześniej, spodziewałem się, że każda para Y i X jest dopasowana linią.
Wykres jest generowany w pythonie w ten sposób:
fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true, red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()
regression
multiple-regression
python
linear
Klausos
źródło
źródło
Odpowiedzi:
Załóżmy, że twoje równanie regresji wielokrotnej było
gdzie Y oznacza „przewidzieć Y ”.y^ y
Teraz weź tylko te punkty, dla których . Następnie, jeśli wykreślić y na x 1 , punkty te będą spełniać równanie:x2=1 y^ x1
Muszą więc leżeć na linii nachylenia 2 i z przecinkiem 8.y
Teraz weź te punkty, dla których . W przypadku drukowania y na x 1 , a następnie punkty te spełniają:x2=2 y^ x1
To jest linia nachylenia 2 i -intercept 13. Możesz sam sprawdzić, czy jeśli x 2 = 3, to otrzymujesz kolejną linię nachylenia 2, a y -intercept wynosi 18.y x2=3 y
Widzimy, że punkty o różnych wartościach będą leżały na różnych liniach, ale wszystkie z tym samym gradientem: znaczenie współczynnika 2 x 1 w pierwotnym równaniu regresji jest takie, że ceteris paribus, tj. Utrzymujący stałe inne predyktory, jeden wzrost jednostka x 1 zwiększa przewidywaną średnią odpowiedź Yx2 2x1 x1 y^ o dwie jednostki, a znaczenie z osią z równania regresji, że gdy x 1 = 0 a x 2 = 0 , to przewiduje się średnią odpowiedź jest 33 x1=0 x2=0 3 . Ale nie wszystkie twoje punkty mają takie same , co oznacza, że leżą na liniach z innym punktem przecięcia - linia będzie miała punkt 3 tylko dla tych punktów, dla których x 2 = 0 . Zamiast widzieć pojedynczą linię, możesz zobaczyć (jeśli występują tylko pewne wartości x 2 , na przykład jeśli x 2 jest zawsze liczbą całkowitą), szereg ukośnych „smug”. Rozważmy następujące dane, gdzie y = 2 x 1 + 5 x 2 + 3 .x2 3 x2=0 x2 x2 y^=2x1+5x2+3
Tutaj są wyczuwalne „smugi”. Teraz, jeśli koloruję w tych punktach, dla których jako czerwone kółka,x2=1 jako złote trójkąty i x 2 = 3 jako niebieskie kwadraty, widzimy, że leżą one na trzech wyraźnych liniach, wszystkie nachylenie 2 iprzecięcia y 8, 13 i 18, jak obliczono powyżej. Oczywiście, jeśli x 2 nie byłby ograniczony do przyjmowania wartości całkowitych lub sytuacja była skomplikowana przez uwzględnienie innych zmiennych predykcyjnych w regresji, wówczas smugi po przekątnej byłyby mniej wyraźne, ale nadal byłoby tak, że każdy przewidywany punkt leży na osobnej liniix2=2 x2=3 y x2 na podstawie wartości innych predyktorów nie pokazanych na wykresie .
Kod dla wykresów R.
źródło