Dlaczego w regresji wielokrotnej liniowej wykres przewidywanych punktów nie leży w linii prostej?

Używam wielu regresji liniowej do opisania zależności między Y a X1, X2.

Z teorii zrozumiałem, że regresja wielokrotna zakłada zależności liniowe między Y a każdym z X (Y i X1, Y i X2). Nie używam żadnej transformacji X.

Mam więc model z R = 0,45 i wszystkimi znaczącymi X (P <0,05). Potem wykreśliłem Y względem X1. Nie rozumiem, dlaczego czerwone kółka, które są przewidywaniami modelu, nie tworzą linii. Jak powiedziałem wcześniej, spodziewałem się, że każda para Y i X jest dopasowana linią.

Wykres jest generowany w pythonie w ten sposób:

fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true,   red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()

regression multiple-regression python linear Klausos
źródło

Czy możesz opublikować kod użyty do wykresu / analizy? Czerwone i niebieskie linie wyglądają jak wzajemne drgania. Tak więc kod stojący za tym spiskiem może pomóc lepiej rozwiązać problem.

Dawny33,

Oczekiwano by linii tylko wtedy, gdy (i) zakłada się, że wartość drugiego predyktora

jest taka sama dla każdego przewidywanego punktu (a jeśli spróbujesz założyć różne wartości

, otrzymasz inną linię), lub ( ii) jeśli używasz predykcji dla swoich rzeczywistych danych, ale „częściowo eliminujesz” (tj. kompensujesz) zmiany

, do czego służy wykres regresji częściowej lub wykres zmiennych dodanych . Nie wiedząc dokładnie, jak skonstruowałeś tę fabułę, nie można wiedzieć, na czym polega twój problem, jak mówi @ dawny33

x_{2}

$x_2$

x_{2}

$x_2$

x_{2}

$x_2$

Silverfish,

Myślę, że komentarz @Silverfish jest poprawny; w trzech wymiarach,

przedstawia płaszczyznę

. Jeśli zredukujesz do dwóch wymiarów, wówczas „rzutujesz” płaszczyznę w trzech wymiarach (

) na płaszczyznę np.

, będzie to linia tylko wtedy, gdy

jest prostopadła do płaszczyzny

y = β_{0} + β_{1} x_{1} + β_{2} x_{2}

$y=\beta_0+\beta_1 x_1 + \beta_2 x_2$

P

$\mathcal{P}$

P

$\mathcal{P}$

(y, x_{1})

$(y,x_1)$

P

$\mathcal{P}$

(y, x_{1})

$(y,x_1)$

@ Dawny33: opublikowano.

Klausos,

@f coppens: Dzięki. Dlaczego zatem literatura mówi, że model wielokrotnej regresji liniowej zakłada zależności liniowe między Y a każdym z X (Y i X1, Y i X2)?

Klausos

Załóżmy, że twoje równanie regresji wielokrotnej było

\hat{y} = 2 x_{1} + 5 x_{2} + 3

$\hat y = 2 x_1 + 5 x_2 + 3$

gdzie oznacza „przewidzieć ”. $\hat y$ $y$

Teraz weź tylko te punkty, dla których . Następnie, jeśli wykreślić na , punkty te będą spełniać równanie: $x_2 = 1$ $\hat y$ $x_1$

\hat{y} = 2 x_{1} + 5 (1) + 3 = 2 x_{1} + 8

$\hat y = 2 x_1 + 5(1) + 3 = 2 x_1 + 8$

Muszą więc leżeć na linii nachylenia 2 i z przecinkiem 8. $y$

Teraz weź te punkty, dla których . W przypadku drukowania na , a następnie punkty te spełniają: $x_2 = 2$ $\hat y$ $x_1$

\hat{y} = 2 x_{1} + 5 (2) + 3 = 2 x_{1} + 13

$\hat y = 2 x_1 + 5(2) + 3 = 2 x_1 + 13$

To jest linia nachylenia 2 i -intercept 13. Możesz sam sprawdzić, czy jeśli to otrzymujesz kolejną linię nachylenia 2, a -intercept wynosi 18. $y$ $x_2=3$ $y$

Widzimy, że punkty o różnych wartościach będą leżały na różnych liniach, ale wszystkie z tym samym gradientem: znaczenie współczynnika w pierwotnym równaniu regresji jest takie, że ceteris paribus, tj. Utrzymujący stałe inne predyktory, jeden wzrost jednostka zwiększa przewidywaną średnią odpowiedź $x_2$ $2x_1$ $x_1$ $\hat y$ o dwie jednostki, a znaczenie z osią z równania regresji, że gdy a , to przewiduje się średnią odpowiedź jest $3$ $x_1 = 0$ $x_2 = 0$ $3$ . Ale nie wszystkie twoje punkty mają takie same , co oznacza, że leżą na liniach z innym punktem przecięcia - linia będzie miała punkt dla tych punktów, dla których . Zamiast widzieć pojedynczą linię, możesz zobaczyć (jeśli występują tylko pewne wartości , na przykład jeśli jest zawsze liczbą całkowitą), szereg ukośnych „smug”. Rozważmy następujące dane, gdzie . $x_2$ $3$ $x_2=0$ $x_2$ $x_2$ $\hat y = 2 x_1 + 5 x_2 + 3$

Tutaj są wyczuwalne „smugi”. Teraz, jeśli koloruję w tych punktach, dla których jako czerwone kółka, $x_2=1$ jako złote trójkąty i jako niebieskie kwadraty, widzimy, że leżą one na trzech wyraźnych liniach, wszystkie nachylenie 2 iprzecięcia 8, 13 i 18, jak obliczono powyżej. Oczywiście, jeśli nie byłby ograniczony do przyjmowania wartości całkowitych lub sytuacja była skomplikowana przez uwzględnienie innych zmiennych predykcyjnych w regresji, wówczas smugi po przekątnej byłyby mniej wyraźne, ale nadal byłoby tak, że każdy przewidywany punkt leży na osobnej linii $x_2=2$ $x_2=3$ $y$ $x_2$ na podstawie wartości innych predyktorów nie pokazanych na wykresie .

$y$ $x_1$ $x_2$ $\hat y = 2 x_1 + 5 x_2 + 3$ $y$ $x_1$ $x_2$ $y$ $x_1$ - oś wskazuje po prawej stronie.

$y$ $y$

$\hat y$ $x_1$ $x_2$ $x_2$ $\hat y$ $x_1$ $x_2$ $y$ $x_1$ $x_2$ $y$ $x_1$

Kod dla wykresów R.

library(scatterplot3d)

data.df <- data.frame(
  x1 = c(0,2,4,5,8, 1,3,4,7,8, 0,3,5,6,7),
  x2 = c(1,1,1,1,1, 2,2,2,2,2, 3,3,3,3,3)
)

data.df$yhat <- with(data.df, 2*x1 + 5*x2 + 3)

data1.df <- data.df[data.df$x2==1,]
data2.df <- data.df[data.df$x2==2,]
data3.df <- data.df[data.df$x2==3,]

#Before lines added    
mar.default <- c(5,4,4,2) + 0.1
par(mar = mar.default + c(0, 1, 0, 0)) 
plot(data.df[c("x1","yhat")], main=expression("Predicted y against "*x[1]),
     xlab=expression(x[1]), ylab=expression(hat(y)))

#After lines added
plot(data.df[c("x1","yhat")], main=expression("Predicted y against "*x[1]),
     xlab=expression(x[1]), ylab=expression(hat(y)), pch=".")
points(data1.df[c("x1","yhat")], pch=19, col="red")
abline(lm(yhat ~ x1, data=data1.df), col="red")
points(data2.df[c("x1","yhat")], pch=17, col="gold")
abline(lm(yhat ~ x1, data=data2.df), col="gold")
points(data3.df[c("x1","yhat")], pch=15, col="blue")
abline(lm(yhat ~ x1, data=data3.df), col="blue")

#3d plot
myPlot <- scatterplot3d(data.df, pch=".", xlab=expression(x[1]),
                        ylab=expression(x[2]), zlab=expression(hat(y)),
                        main=expression("Predicted y against "*x[1]*" and "*x[2]))
myPlot$plane3d(Intercept=3, x.coef=2, y.coef=5, col="darkgrey")
myPlot$points3d(data1.df, pch=19, col="red")
myPlot$points3d(data2.df, pch=17, col="gold")
myPlot$points3d(data3.df, pch=15, col="blue")
print(myPlot)

Silverfish
źródło

Tylko jedno małe pytanie: Mówiąc samolot, masz na myśli także samolot, który może mieć pewną krzywiznę?

Klausos

Oznacza płaszczyznę „płaską”. Dodam zdjęcie do zilustrowania później.

Silverfish,

Staram się odpowiedzieć na to pytanie, aby móc wrócić do tych wspaniałych fabuł

shadowtalker,

Dlaczego w regresji wielokrotnej liniowej wykres przewidywanych punktów nie leży w linii prostej?

Odpowiedzi: