Próbuję zrozumieć notację macierzową i pracuję z wektorami i macierzami.
W tej chwili chciałbym zrozumieć, jak obliczany jest wektor współczynników szacunkowych w regresji wielokrotnej.
Wydaje się, że podstawowe równanie
Jak mam rozwiązać tutaj wektor ?
Edycja : Czekaj, utknąłem. Jestem tu teraz i nie wiem, jak kontynuować:
Z dla wszystkich jest przechwyceniem:
Czy możesz wskazać mi właściwy kierunek?
regression
Alexander Engelhardt
źródło
źródło
smallmatrix
, więc nie próbowałem edytować, ponieważ zwykłe rozwiązanie łamania formuły w kilku wierszach nie działałoby tutaj.Odpowiedzi:
Mamy
Można to pokazać, pisząc równanie wprost ze składnikami. Na przykład napisz zamiast . Następnie weź pochodne w odniesieniu do , , ..., i wszystko w stos, aby uzyskać odpowiedź. Aby szybko i łatwo zilustrować, możesz zacząć od .(β1,…,βp)′ β β1 β2 βp p=2
Z doświadczeniem opracowuje się ogólne zasady, z których niektóre podano np. W tym dokumencie .
Edytuj, aby poprowadzić dodaną część pytania
Przy mamyp=2
Pochodna w odniesieniu do toβ1
Podobnie pochodną względem jestβ2
Stąd pochodną względem jestβ=(β1,β2)′
Teraz zauważ, że możesz przepisać ostatnie wyrażenie jako
Oczywiście wszystko robi się w ten sam sposób dla większego .p
źródło
Możesz także użyć formuł z książki kucharskiej Matrix . Mamy
Teraz weź pochodne każdego terminu. Możesz zauważyć, że . Pochodna terminu w odniesieniu do wynosi zero. Pozostały okresβ′X′y=y′Xβ y′y β
ma formę funkcji
we wzorze (88) w książce na stronie 11, z , i . Pochodna jest podana we wzorze (89):x=β A=X′X b=−2X′y
więc
Teraz, ponieważ otrzymujemy pożądane rozwiązanie:(X′X)′=X′X
źródło
Oto technika minimalizacji sumy kwadratów w regresji, która faktycznie ma zastosowania do bardziej ogólnych ustawień i która uważam za przydatną.
Spróbujmy całkowicie uniknąć rachunku macierzy wektorowej.
Załóżmy, że jesteśmy zainteresowani minimalizowaniem gdzie , i . Przyjmujemy dla uproszczenia, że i .
Dla każdego otrzymujemyβ^∈Rp
Jeśli możemy wybrać (znaleźć!) Wektor taki, że ostatni termin po prawej stronie wynosi zero dla każdego , to zrobilibyśmy to, ponieważ oznaczałoby to, że .β^ β minβE≥∥y−Xβ^∥22
Ale, dla wszystkich wtedy i tylko wtedy, gdy i to ostatnie równanie jest prawdziwe tylko wtedy, gdy . Więc jest zminimalizowane poprzez wzięcie .(β−β^)TXT(y−Xβ^)=0 β XT(y−Xβ^)=0 XTXβ^=XTy E β^=(XTX)−1XTy
Chociaż może to wydawać się „sztuczką” pozwalającą uniknąć rachunku różniczkowego, ma on jednak szersze zastosowanie i interesującą geometrię.
Jednym z przykładów, w których ta technika sprawia, że wyprowadzenie jest znacznie prostsze niż jakiekolwiek podejście rachunku macierzowego-wektorowego, jest uogólnienie na przypadek macierzy. Niech , i . Załóżmy, że chcemy zminimalizować w całej macierzy parametrów . Tutaj jest macierzą kowariancji.Y∈Rn×p X∈Rn×q B∈Rq×p
Całkowicie analogiczne podejście do powyższego szybko ustala, że minimum osiąga się przyjmując Oznacza to, że w ustawieniach regresji, w których odpowiedź jest wektorem z kowariancją a obserwacje są niezależne, wówczas oszacowanie OLS osiąga się poprzez wykonanie oddzielnych regresji liniowych na elementach odpowiedzi.E
źródło
Jednym ze sposobów, który może pomóc Ci zrozumieć, jest niestosowanie algebry macierzy i różnicowanie każdego elementu względem każdego komponentu, a następnie „przechowywanie” wyników w wektorze kolumny. Więc mamy:
Teraz masz tych równań, po jednym dla każdej beta. Jest to proste zastosowanie reguły łańcucha:p
Teraz możemy ponownie zapisać sumę w nawiasie jako Otrzymujesz:∑pj=1Xijβj=xTiβ
Teraz mamy tych równań i „ułożymy je” w wektorze kolumny. Zauważ, że jest jedynym terminem zależnym od , więc możemy ułożyć to w wektor i otrzymamy:p Xik k xi
Teraz możemy wziąć wersję beta poza sumę (ale musi pozostać na RHS sumy), a następnie wziąć odwrotność:
źródło