W jaki sposób wektor zmiennych może reprezentować hiperpłaszczyznę?

Czytam Elementy uczenia statystycznego i na stronie 12 (sekcja 2.3) zapisano model liniowy jako:

\hat{Y} = X^{T} \hat{β}

$\widehat{Y} = X^{T} \widehat{\beta}$

... gdzie jest transpozycją wektora kolumnowego predyktorów / zmiennych niezależnych / danych wejściowych. (Stwierdzono wcześniej, że „przyjmuje się, że wszystkie wektory są wektorami kolumnowymi”, więc czy nie byłby wektorem wiersza, a wektorem kolumny?) $X^{T}$ $X^{T}$ $\widehat{\beta}$

Zawarte w jest „ ” należy pomnożyć przez odpowiedni współczynnik daje (stały) z osią. $X$ $1$

Mówi dalej:

W wymiarowej przestrzeni wejścia-wyjścia reprezentuje hiperpłaszczyznę. Jeśli stała jest zawarta w , wówczas hiperpłaszczyzna zawiera początek i jest podprzestrzenią; jeśli nie, jest to zestaw afiniczny wycinający oś w punkcie . $(p + 1)$ $(X,\ \widehat{Y})$ $X$ $Y$ $(0,\ \widehat{\beta_0})$

Czy „ ” opisuje wektor utworzony przez konkatenację predyktorów, „ ” i przechwytywania ? I dlaczego umieszczenie „ ” w zmusza hiperpłaszczyznę do przejścia przez początek, z pewnością, że „ ” należy pomnożyć przez ? $(X,\ \widehat{Y})$ $1$ $\widehat{Y}$ $1$ $X$ $1$ $\widehat{\beta_0}$

Nie rozumiem książki; każda pomoc / porady / linki do zasobów byłyby bardzo mile widziane.

regression references statistical-learning Scott
źródło

Warto najpierw rozważyć

. W tym

punkt przecięcia. To równanie linii przechodzącej przez

. Rozszerzenia do wyższych wymiarów są natychmiastowe.

p = 1

$p = 1$

\hat{y} = {\hat{β}}_{0} + x \hat{β}

$\hat{y} = \hat{\beta}_0 + x \hat{\beta}$

β_{0}

$\beta_0$

(0, {\hat{β}}_{0})

$(0, \hat{\beta}_0)$

ocram

Jeśli pomoc @ocram nie jest wystarczająca, spróbuj zapisać wektory i dokonać mnożenia.

Peter Flom

Oto ładna prezentacja graficzna: blog.stata.com/2011/03/03/… . Zapis jest inna, tam jest twój X i X jest

\hat{β}

$\hat \beta$

Dimitriy V. Masterov

Książka jest zła lub przynajmniej niespójna. Najwyraźniej istnieją zmienne

nie uwzględniające stałej. Zatem zbiór

rzeczywiście jest hiperpłaszczyzną, ale błędne jest twierdzenie, że stała jest „zawarta w

”. Zamiast myślę książkę oznaczało powiedzieć, że stała jest wliczone w regresji , ale nadal nie powinno być uważane za część

. Dlatego model naprawdę powinien być napisany

p

$p$

{(X, \hat{Y}) | X \in R^{p}}

$\{(X,\hat{Y})|X\in\mathbb{R}^p\}$

X

$X$

X

$X$

którym

. Ustawienie

natychmiast daje potwierdzenie o przechwyceniu.

\hat{Y} = {\hat{β}}_{0} + X^{'} \hat{β}

$\hat{Y}=\hat\beta_0 + X'\hat\beta$

β = (β_{1}, β_{2}, \dots, β_{p})^{'}

$\beta=(\beta_1,\beta_2,\ldots,\beta_p)'$

X = 0

$X=0$

whuber

(Jeżeli zamiast tego zawierać stałe w

, wówczas nie można pozwolić

dowolnie zmieniać się wszystkie

: jest on ograniczony do leżą w

wymiarową podprzestrzeni wykresu.

ma wówczas codimension co najmniej

a więc tak naprawdę nie jest „hiperpłaszczyzną”)

X

$X$

X

$X$

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

{(X, \hat{Y})}

$\{(X,\hat Y)\}$

2

$2$

whuber

Odpowiedzi:

Niech będzie liczbą obserwacji, a liczbą zmiennych objaśniających. $N$ $K$

to w rzeczywistości $X$ MacierzTylko gdy patrzymy na pojedynczą obserwację, każdą obserwację oznaczamy zwykle jako - wektor rzędowy zmiennych objaśniających jednego konkretnego skalaru obserwacji pomnożony przez $N\!\times\!K$ $x_i^T$ wektor kolumnowy . Ponadto oznacza $K\!\times\!1$ $\beta$ $Y$ wektor kolumnowy, zawierający wszystkie obserwacje . $N\!\times\!1$ $Y_n$

Teraz, dwuwymiarowa hiperpłaszczyzna by rozstaw wektora i jeden (!) Kolumny wektora . Pamiętaj, że to $Y$ $X$ $X$ osnowę, tak więc każda zmienna zamieszczony jest reprezentowany przez dokładnie jeden wektor kolumny macierzy . Jeśli mamy tylko jedną zmienną objaśniającą, bez przecięcia i , wszystkie punkty danych są położone wzdłuż płaszczyzny rozpiętej przez 2 wymiarowej i . $N\!\times\!K$ $X$ $Y$ $Y$ $X$

W przypadku regresji wielokrotnej, ile wymiarów łącznie ma hiperpłaszczyzna między a macierzą ? Odpowiedź: Ponieważ mamy wektory kolumn zmiennych objaśniających w , musimy mieć $Y$ $X$ $K$ $X$ płaszczyzna wymiaru. $K\!+\!1$

Zwykle w ustawieniu macierzowym regresja wymaga stałego przechwytywania, aby być obiektywnym dla rozsądnej analizy współczynnika nachylenia. Aby uwzględnić tę sztuczkę, wymuszamy, aby jedna kolumna macierzy składała się tylko z „ s”. W tym przypadku estymator jest osobno pomnożony przez stałą dla każdej obserwacji zamiast losowej zmiennej objaśniającej. Współczynnik reprezentuje zatem oczekiwaną wartość biorąc pod uwagę, że jest utrzymywane na stałym poziomie z wartością 1, a wszystkie inne zmienne są zerowe. Dlatego $X$ $1$ $\beta_1$ $\beta_1$ $Y$ $x_{1i}$ wymiarowa hiperpłaszczyzna jest zredukowana o jeden wymiar dopodprzestrzeni wymiarowej, a odpowiada „punktowi przechwytywania” tejpłaszczyzny wymiarowej. $K\!+\!1$ $K$ $\beta_1$ $K$

W ustawieniach matrycy zawsze warto przyjrzeć się prostemu przypadkowi dwóch wymiarów, aby sprawdzić, czy możemy znaleźć intuicję dla naszych wyników. Tutaj najprościej jest pomyśleć o prostej regresji z dwiema zmiennymi objaśniającymi: lub alternatywnie wyrażone w algebrze macierzy: gdzie jest a

y_{i} = β_{1} x_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_1x_{1i} + \beta_2x_{2i} +u_i$

Y = X β + u

$Y=X\beta +u$

X

$X$

matryce.

N \times 2

$N\!\times\!2$

obejmuje trójwymiarową hiperpłaszczyznę. $<Y,X>$

Teraz, jeśli wymusimy, aby wszystkie były wszystkie , otrzymujemy: co jest naszą zwykłą prostą regresją, którą można przedstawić w dwuwymiarowym wykresie Zauważ, że jest teraz zredukowane do dwuwymiarowej linii - podzbioru pierwotnie 3-wymiarowej hiperpłaszczyzny. Współczynnik odpowiada punktowi przecięcia linii przy $x_1$ $1$

y_{i} = β_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_{1i} + \beta_2x_{2i} + u_i$

X, Y

$X,\ Y$

< Y, X >

$<Y,X>$

β_{1}

$\beta_1$

x_{2 i} = 0

$x_{2i}=0$

Można ponadto wykazać, że przechodzi on również przez gdy uwzględniona jest stała . Jeśli pominiemy stałą, hiperpłaszczyzna regresji zawsze przechodzi trywialnie przez - bez wątpienia. Uogólnia się to na wiele wymiarów, co będzie później widoczne przy wyprowadzaniu : $<0,\beta_1>$ $<0,0>$ $\beta$ Ponieważ ma pełną rangę według definicji, , a zatem regresja przechodzi przez początek, jeśli pominiemy przecięcie.

(X^{'} X) β = X^{'} y ⟹ (X^{'} X) β - X^{'} y = 0 ⟹ X^{'} (y - X β) = 0.

$(X'X)\beta=X'y \implies (X'X)\beta-X'y=0 \implies X'(y-X\beta)=0.$

X

$X$

y - X β = 0

$y-X\beta=0$

( Edycja: Właśnie zdałem sobie sprawę, że w drugim pytaniu jest dokładnie odwrotnie niż w przypadku zapisywania regresji włączenia lub wyłączenia stałej. Jednak już opracowałem tutaj rozwiązanie i poprawiam się, jeśli się mylę ).

Wiem, że macierzowa reprezentacja regresji może być dość myląca na początku, ale ostatecznie bardzo upraszcza to, kiedy uzyskuje się bardziej złożoną algebrę. Mam nadzieję, że to trochę pomoże.

Majte
źródło

Myślę, że sposobem na to jest przeorganizowanie tego równania:

\hat{Y} - X^{T} \hat{β} = 0

$\widehat{Y} - X^{T} \widehat{\beta} = 0$

Jedynym sposobem dostaniesz to równanie liniowe włączenia pochodzenie jest, aby przewidzieć równa przecięcia. A sposobem oszacowania tej wartości jest uwzględnienie terminu przechwytywania w modelu regresji.

\hat{Y}

$\widehat{Y}$

DWin
źródło