W jaki sposób wektor zmiennych może reprezentować hiperpłaszczyznę?

12

Czytam Elementy uczenia statystycznego i na stronie 12 (sekcja 2.3) zapisano model liniowy jako:

Y^=XTβ^

... gdzie jest transpozycją wektora kolumnowego predyktorów / zmiennych niezależnych / danych wejściowych. (Stwierdzono wcześniej, że „przyjmuje się, że wszystkie wektory są wektorami kolumnowymi”, więc czy nie byłby wektorem wiersza, a wektorem kolumny?)XTXTβ^

Zawarte w jest „ ” należy pomnożyć przez odpowiedni współczynnik daje (stały) z osią.X1

Mówi dalej:

W wymiarowej przestrzeni wejścia-wyjścia (X, \ \ widehat {Y}) reprezentuje hiperpłaszczyznę. Jeśli stała jest zawarta w X , wówczas hiperpłaszczyzna zawiera początek i jest podprzestrzenią; jeśli nie, jest to zestaw afiniczny wycinający oś Y w punkcie (0, \ \ widehat {\ beta_0}) .(p+1)(X, Y^)XY(0, β0^)

Czy „ ” opisuje wektor utworzony przez konkatenację predyktorów, „ ” i przechwytywania ? I dlaczego umieszczenie „ ” w zmusza hiperpłaszczyznę do przejścia przez początek, z pewnością, że „ ” należy pomnożyć przez ?1 T 1 X 1 ^ β 0(X, Y^)1Y^1X1β0^

Nie rozumiem książki; każda pomoc / porady / linki do zasobów byłyby bardzo mile widziane.

Scott
źródło
4
Warto najpierw rozważyć . W tym przypadku y = β 0 + x β z p 0 punkt przecięcia. To równanie linii przechodzącej przez ( 0 , β 0 ) . Rozszerzenia do wyższych wymiarów są natychmiastowe. p=1y^=β^0+xβ^β0(0,β^0)
ocram
Jeśli pomoc @ocram nie jest wystarczająca, spróbuj zapisać wektory i dokonać mnożenia.
Peter Flom
2
Oto ładna prezentacja graficzna: blog.stata.com/2011/03/03/… . Zapis jest inna, tam jest twój X i X jest β . β^
Dimitriy V. Masterov
2
Książka jest zła lub przynajmniej niespójna. Najwyraźniej istnieją zmienne nie uwzględniające stałej. Zatem zbiór { ( X , Y ) | X R p } rzeczywiście jest hiperpłaszczyzną, ale błędne jest twierdzenie, że stała jest „zawarta w X ”. Zamiast myślę książkę oznaczało powiedzieć, że stała jest wliczone w regresji , ale nadal nie powinno być uważane za część X . Dlatego model naprawdę powinien być napisany Y = β 0 +p{(X,Y^)|XRp}XX β którym β = ( β 1 , β 2 , ... , β s ) ' . Ustawienie X = 0 natychmiast daje potwierdzenie o przechwyceniu. Y^=β^0+Xβ^β=(β1,β2,,βp)X=0
whuber
1
(Jeżeli zamiast tego zawierać stałe w , wówczas nie można pozwolić X dowolnie zmieniać się wszystkie R p : jest on ograniczony do leżą w p - 1 wymiarową podprzestrzeni wykresu. { ( X , Y ) } ma wówczas codimension co najmniej 2, a więc tak naprawdę nie jest „hiperpłaszczyzną”)XXRpp1{(X,Y^)}2
whuber

Odpowiedzi:

4

Niech będzie liczbą obserwacji, a K liczbą zmiennych objaśniających.NK

to w rzeczywistości NXMacierz K. Tylko gdy patrzymy na pojedynczą obserwację, każdą obserwację oznaczamy zwykle jako x T i - wektor rzędowy zmiennych objaśniających jednego konkretnego skalaru obserwacji pomnożony przez KN×KxiT wektor kolumnowy β . Ponadto Y oznacza NK×1βY wektor kolumnowy, zawierający wszystkie obserwacje Y n .N×1Yn

Teraz, dwuwymiarowa hiperpłaszczyzna by rozstaw wektora i jeden (!) Kolumny wektora X . Pamiętaj, że X to N.YXX osnowę, tak więc każda zmienna zamieszczony jest reprezentowany przez dokładnie jeden wektor kolumny macierzy X . Jeśli mamy tylko jedną zmienną objaśniającą, bez przecięcia i Y , wszystkie punkty danych są położone wzdłuż płaszczyzny rozpiętej przez 2 wymiarowej Y i X .N×KXYYX

W przypadku regresji wielokrotnej, ile wymiarów łącznie ma hiperpłaszczyzna między a macierzą X ? Odpowiedź: Ponieważ mamy wektory K kolumn zmiennych objaśniających w X , musimy mieć KYXKX płaszczyzna wymiaru.K+1

Zwykle w ustawieniu macierzowym regresja wymaga stałego przechwytywania, aby być obiektywnym dla rozsądnej analizy współczynnika nachylenia. Aby uwzględnić tę sztuczkę, wymuszamy, aby jedna kolumna macierzy składała się tylko z „ 1 s”. W tym przypadku estymator β 1 jest osobno pomnożony przez stałą dla każdej obserwacji zamiast losowej zmiennej objaśniającej. Współczynnik β 1 reprezentuje zatem oczekiwaną wartość Y, biorąc pod uwagę, że x 1 i jest utrzymywane na stałym poziomie z wartością 1, a wszystkie inne zmienne są zerowe. Dlatego KX1β1β1Yx1i wymiarowa hiperpłaszczyzna jest zredukowana o jeden wymiar dopodprzestrzeni K- wymiarowej, a β 1 odpowiada „punktowi przechwytywania” tejpłaszczyzny K- wymiarowej.K+1Kβ1K

W ustawieniach matrycy zawsze warto przyjrzeć się prostemu przypadkowi dwóch wymiarów, aby sprawdzić, czy możemy znaleźć intuicję dla naszych wyników. Tutaj najprościej jest pomyśleć o prostej regresji z dwiema zmiennymi objaśniającymi: lub alternatywnie wyrażone w algebrze macierzy: Y = X β + u, gdzie X jest a N.

yi=β1x1i+β2x2i+ui
Y=Xβ+uX matryce.N×2

obejmuje trójwymiarową hiperpłaszczyznę.<Y,X>

Teraz, jeśli wymusimy, aby wszystkie były wszystkie 1 , otrzymujemy: y i = β 1 i + β 2 x 2 i + u i, co jest naszą zwykłą prostą regresją, którą można przedstawić w dwuwymiarowym wykresie X , Y. Zauważ, że < Y , X > jest teraz zredukowane do dwuwymiarowej linii - podzbioru pierwotnie 3-wymiarowej hiperpłaszczyzny. Współczynnik β 1 odpowiada punktowi przecięcia linii przy x 2 i =x11

yi=β1i+β2x2i+ui
X, Y<Y,X>β1 .x2i=0

Można ponadto wykazać, że przechodzi on również przez gdy uwzględniona jest stała . Jeśli pominiemy stałą, hiperpłaszczyzna regresji zawsze przechodzi trywialnie przez < 0 , 0 > - bez wątpienia. Uogólnia się to na wiele wymiarów, co będzie później widoczne przy wyprowadzaniu β : ( X X ) β = X y<0,β1><0,0>β Ponieważ X ma pełną rangę według definicji, y - X β = 0 , a zatem regresja przechodzi przez początek, jeśli pominiemy przecięcie.

(XX)β=Xy(XX)βXy=0X(yXβ)=0.
XyXβ=0

( Edycja: Właśnie zdałem sobie sprawę, że w drugim pytaniu jest dokładnie odwrotnie niż w przypadku zapisywania regresji włączenia lub wyłączenia stałej. Jednak już opracowałem tutaj rozwiązanie i poprawiam się, jeśli się mylę ).

Wiem, że macierzowa reprezentacja regresji może być dość myląca na początku, ale ostatecznie bardzo upraszcza to, kiedy uzyskuje się bardziej złożoną algebrę. Mam nadzieję, że to trochę pomoże.

Majte
źródło
1

Myślę, że sposobem na to jest przeorganizowanie tego równania:

Y^XTβ^=0

Jedynym sposobem dostaniesz to równanie liniowe włączenia pochodzenie jest, aby przewidzieć Y równa przecięcia. A sposobem oszacowania tej wartości jest uwzględnienie terminu przechwytywania w modelu regresji.

Y^
DWin
źródło