Czytam Elementy uczenia statystycznego i na stronie 12 (sekcja 2.3) zapisano model liniowy jako:
... gdzie jest transpozycją wektora kolumnowego predyktorów / zmiennych niezależnych / danych wejściowych. (Stwierdzono wcześniej, że „przyjmuje się, że wszystkie wektory są wektorami kolumnowymi”, więc czy nie byłby wektorem wiersza, a wektorem kolumny?)
Zawarte w jest „ ” należy pomnożyć przez odpowiedni współczynnik daje (stały) z osią.
Mówi dalej:
W wymiarowej przestrzeni wejścia-wyjścia (X, \ \ widehat {Y}) reprezentuje hiperpłaszczyznę. Jeśli stała jest zawarta w X , wówczas hiperpłaszczyzna zawiera początek i jest podprzestrzenią; jeśli nie, jest to zestaw afiniczny wycinający oś Y w punkcie (0, \ \ widehat {\ beta_0}) .
Czy „ ” opisuje wektor utworzony przez konkatenację predyktorów, „ ” i przechwytywania ? I dlaczego umieszczenie „ ” w zmusza hiperpłaszczyznę do przejścia przez początek, z pewnością, że „ ” należy pomnożyć przez ?1 T 1 X 1 ^ β 0
Nie rozumiem książki; każda pomoc / porady / linki do zasobów byłyby bardzo mile widziane.
Odpowiedzi:
Niech będzie liczbą obserwacji, a K liczbą zmiennych objaśniających.N K
to w rzeczywistości NX Macierz K. Tylko gdy patrzymy na pojedynczą obserwację, każdą obserwację oznaczamy zwykle jako x T i - wektor rzędowy zmiennych objaśniających jednego konkretnego skalaru obserwacji pomnożony przez KN×K xTi wektor kolumnowy β . Ponadto Y oznacza NK×1 β Y wektor kolumnowy, zawierający wszystkie obserwacje Y n .N×1 Yn
Teraz, dwuwymiarowa hiperpłaszczyzna by rozstaw wektora i jeden (!) Kolumny wektora X . Pamiętaj, że X to N.Y X X osnowę, tak więc każda zmienna zamieszczony jest reprezentowany przez dokładnie jeden wektor kolumny macierzy X . Jeśli mamy tylko jedną zmienną objaśniającą, bez przecięcia i Y , wszystkie punkty danych są położone wzdłuż płaszczyzny rozpiętej przez 2 wymiarowej Y i X .N×K X Y Y X
W przypadku regresji wielokrotnej, ile wymiarów łącznie ma hiperpłaszczyzna między a macierzą X ? Odpowiedź: Ponieważ mamy wektory K kolumn zmiennych objaśniających w X , musimy mieć KY X K X płaszczyzna wymiaru.K+1
Zwykle w ustawieniu macierzowym regresja wymaga stałego przechwytywania, aby być obiektywnym dla rozsądnej analizy współczynnika nachylenia. Aby uwzględnić tę sztuczkę, wymuszamy, aby jedna kolumna macierzy składała się tylko z „ 1 s”. W tym przypadku estymator β 1 jest osobno pomnożony przez stałą dla każdej obserwacji zamiast losowej zmiennej objaśniającej. Współczynnik β 1 reprezentuje zatem oczekiwaną wartość Y, biorąc pod uwagę, że x 1 i jest utrzymywane na stałym poziomie z wartością 1, a wszystkie inne zmienne są zerowe. Dlatego KX 1 β1 β1 Y x1i wymiarowa hiperpłaszczyzna jest zredukowana o jeden wymiar dopodprzestrzeni K- wymiarowej, a β 1 odpowiada „punktowi przechwytywania” tejpłaszczyzny K- wymiarowej.K+1 K β1 K
W ustawieniach matrycy zawsze warto przyjrzeć się prostemu przypadkowi dwóch wymiarów, aby sprawdzić, czy możemy znaleźć intuicję dla naszych wyników. Tutaj najprościej jest pomyśleć o prostej regresji z dwiema zmiennymi objaśniającymi: lub alternatywnie wyrażone w algebrze macierzy: Y = X β + u, gdzie X jest a N.
obejmuje trójwymiarową hiperpłaszczyznę.<Y,X>
Teraz, jeśli wymusimy, aby wszystkie były wszystkie 1 , otrzymujemy: y i = β 1 i + β 2 x 2 i + u i, co jest naszą zwykłą prostą regresją, którą można przedstawić w dwuwymiarowym wykresie X , Y. Zauważ, że < Y , X > jest teraz zredukowane do dwuwymiarowej linii - podzbioru pierwotnie 3-wymiarowej hiperpłaszczyzny. Współczynnik β 1 odpowiada punktowi przecięcia linii przy x 2 i =x1 1
Można ponadto wykazać, że przechodzi on również przez gdy uwzględniona jest stała . Jeśli pominiemy stałą, hiperpłaszczyzna regresji zawsze przechodzi trywialnie przez < 0 , 0 > - bez wątpienia. Uogólnia się to na wiele wymiarów, co będzie później widoczne przy wyprowadzaniu β : ( X ′ X ) β = X ′ y<0,β1> <0,0> β
Ponieważ X ma pełną rangę według definicji, y - X β = 0 , a zatem regresja przechodzi przez początek, jeśli pominiemy przecięcie.
( Edycja: Właśnie zdałem sobie sprawę, że w drugim pytaniu jest dokładnie odwrotnie niż w przypadku zapisywania regresji włączenia lub wyłączenia stałej. Jednak już opracowałem tutaj rozwiązanie i poprawiam się, jeśli się mylę ).
Wiem, że macierzowa reprezentacja regresji może być dość myląca na początku, ale ostatecznie bardzo upraszcza to, kiedy uzyskuje się bardziej złożoną algebrę. Mam nadzieję, że to trochę pomoże.
źródło
Myślę, że sposobem na to jest przeorganizowanie tego równania:
Jedynym sposobem dostaniesz to równanie liniowe włączenia pochodzenie jest, aby przewidzieć Y równa przecięcia. A sposobem oszacowania tej wartości jest uwzględnienie terminu przechwytywania w modelu regresji.
źródło