Analityczne rozwiązanie szacunków współczynnika regresji liniowej

9

Próbuję zrozumieć notację macierzową i pracuję z wektorami i macierzami.

W tej chwili chciałbym zrozumieć, jak obliczany jest wektor współczynników szacunkowych w regresji wielokrotnej.β^

Wydaje się, że podstawowe równanie

ddβ(yXβ)(yXβ)=0.

Jak mam rozwiązać tutaj wektor β ?

Edycja : Czekaj, utknąłem. Jestem tu teraz i nie wiem, jak kontynuować:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

Z dla wszystkich jest przechwyceniem:xi0=1i

ddβi=1n(yik=0pxikβk)2

Czy możesz wskazać mi właściwy kierunek?

Alexander Engelhardt
źródło
@GaBorgulya, dzięki za edycję, nie wiedziałem smallmatrix, więc nie próbowałem edytować, ponieważ zwykłe rozwiązanie łamania formuły w kilku wierszach nie działałoby tutaj.
mpiktas,

Odpowiedzi:

12

Mamy

ddβ(yXβ)(yXβ)=2X(yXβ) .

Można to pokazać, pisząc równanie wprost ze składnikami. Na przykład napisz zamiast . Następnie weź pochodne w odniesieniu do , , ..., i wszystko w stos, aby uzyskać odpowiedź. Aby szybko i łatwo zilustrować, możesz zacząć od .(β1,,βp)ββ1β2βpp=2

Z doświadczeniem opracowuje się ogólne zasady, z których niektóre podano np. W tym dokumencie .

Edytuj, aby poprowadzić dodaną część pytania

Przy mamyp=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

Pochodna w odniesieniu do toβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Podobnie pochodną względem jestβ2

2x12(y1x11β1x12β2)2x22(y2x21β1x22β2)

Stąd pochodną względem jestβ=(β1,β2)

(2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)2x12(y1x11β1x12β2)2x22(y2x21β1x22β2))

Teraz zauważ, że możesz przepisać ostatnie wyrażenie jako

2(x11x21x12x22)(y1x11β1x12β2y2x21β1x22β2)=2X(yXβ)

Oczywiście wszystko robi się w ten sam sposób dla większego .p

ocram
źródło
Wspaniale, szukałem właśnie tego typu plików pdf. Wielkie dzięki!
Alexander Engelhardt,
Och, myślałem, że mogę to teraz zrobić sam, ale nie mogę. Czy możesz mi powiedzieć, czy moje kroki są słuszne, czy też powinienem podjąć „inny sposób”, aby rozwiązać ten problem?
Alexander Engelhardt
@Alexx Hardt: Moje pierwsze równanie w edycji jest takie samo jak twoje ostatnie równanie w szczególnym przypadku, w którym p = 2. Zatem możesz naśladować moje obliczenia dla składników 3, 4, ..., s.
ocram
Jeszcze raz dziękuję :) Myślę, że wykorzystam wszystkie trzy sugestie. Buduję plik .pdf, który wyjaśnia i podsumowuje algebrę macierzy podstawowych statystyk, ponieważ jakoś nigdy nie chciałem się jej uczyć, kiedy nauczyłem się jej na zajęciach. Mam nadzieję, że rozwiązanie tego na trzy różne sposoby pomoże mi to lepiej zrozumieć.
Alexander Engelhardt
Och, ale to jest dla p = 2 i n = 2, prawda? Spiszę to z n = 3 Myślę, że.
Alexander Engelhardt
13

Możesz także użyć formuł z książki kucharskiej Matrix . Mamy

(yXβ)(yXβ)=yyβXyyXβ+βXXβ

Teraz weź pochodne każdego terminu. Możesz zauważyć, że . Pochodna terminu w odniesieniu do wynosi zero. Pozostały okresβXy=yXβyyβ

βXXβ2yXβ

ma formę funkcji

f(x)=xAx+bx,

we wzorze (88) w książce na stronie 11, z , i . Pochodna jest podana we wzorze (89):x=βA=XXb=2Xy

fx=(A+A)x+b

więc

β(yXβ)(yXβ)=(XX+(XX))β2Xy

Teraz, ponieważ otrzymujemy pożądane rozwiązanie:(XX)=XX

XXβ=Xy
mpiktas
źródło
+1 mpiktas: Twoje rozwiązanie jest bardziej pomysłowe niż moje i myślę, że powinno być stosowane w bardziej złożonych sytuacjach praktycznych.
ocram
1
@ocram, dzięki. Nie nazwałbym tego genialnym, jest to standardowe zastosowanie istniejących formuł. Musisz tylko znać formuły :)
mpiktas
8

Oto technika minimalizacji sumy kwadratów w regresji, która faktycznie ma zastosowania do bardziej ogólnych ustawień i która uważam za przydatną.

Spróbujmy całkowicie uniknąć rachunku macierzy wektorowej.

Załóżmy, że jesteśmy zainteresowani minimalizowaniem gdzie , i . Przyjmujemy dla uproszczenia, że i .

E=(yXβ)T(yXβ)=yXβ22,
yRnXRn×pβRppnrank(X)=p

Dla każdego otrzymujemy β^Rp

E=yXβ^+Xβ^Xβ22=yXβ^22+X(ββ^)222(ββ^)TXT(yXβ^).

Jeśli możemy wybrać (znaleźć!) Wektor taki, że ostatni termin po prawej stronie wynosi zero dla każdego , to zrobilibyśmy to, ponieważ oznaczałoby to, że .β^ βminβEyXβ^22

Ale, dla wszystkich wtedy i tylko wtedy, gdy i to ostatnie równanie jest prawdziwe tylko wtedy, gdy . Więc jest zminimalizowane poprzez wzięcie .(ββ^)TXT(yXβ^)=0βXT(yXβ^)=0XTXβ^=XTyEβ^=(XTX)1XTy


Chociaż może to wydawać się „sztuczką” pozwalającą uniknąć rachunku różniczkowego, ma on jednak szersze zastosowanie i interesującą geometrię.

Jednym z przykładów, w których ta technika sprawia, że ​​wyprowadzenie jest znacznie prostsze niż jakiekolwiek podejście rachunku macierzowego-wektorowego, jest uogólnienie na przypadek macierzy. Niech , i . Załóżmy, że chcemy zminimalizować w całej macierzy parametrów . Tutaj jest macierzą kowariancji.YRn×pXRn×qBRq×p

E=tr((YXB)Σ1(YXB)T)
BΣ

Całkowicie analogiczne podejście do powyższego szybko ustala, że ​​minimum osiąga się przyjmując Oznacza to, że w ustawieniach regresji, w których odpowiedź jest wektorem z kowariancją a obserwacje są niezależne, wówczas oszacowanie OLS osiąga się poprzez wykonanie oddzielnych regresji liniowych na elementach odpowiedzi.E

B^=(XTX)1XTY.
Σp
kardynał
źródło
Na szczęście zasady forum pozwalają dodawać +1 do każdej odpowiedzi. Dzięki za edukację, chłopaki!
DW
@DWin, czy chciałeś zamieścić to pod komentarzami do pytania?
kardynał
Chyba mógłbym. Sekwencyjnie przejrzałem to pytanie, a następnie wszystkie odpowiedzi (po przetworzeniu MathML przestałem się szarpać) i znalazłem każdą z nich jako informacyjną. Właśnie upuściłem swój komentarz na twój, ponieważ to tam przestałem czytać.
DW
1
@DWin, tak, rendering jest nieco funky. Pomyślałem, że mógłbyś zamieścić komentarz do innego postu, ponieważ ten nie ma głosów (w górę lub w dół), więc komentarz wydawał się nie na miejscu. Twoje zdrowie.
kardynał
1
@cardinal +1, przydatna sztuczka. To pytanie okazało się całkiem dobrym odniesieniem.
mpiktas
6

Jednym ze sposobów, który może pomóc Ci zrozumieć, jest niestosowanie algebry macierzy i różnicowanie każdego elementu względem każdego komponentu, a następnie „przechowywanie” wyników w wektorze kolumny. Więc mamy:

βki=1N(Yij=1pXijβj)2=0

Teraz masz tych równań, po jednym dla każdej beta. Jest to proste zastosowanie reguły łańcucha:p

i=1N2(Yij=1pXijβj)1(βk[Yij=1pXijβj])=0
2i=1NXik(Yij=1pXijβj)=0

Teraz możemy ponownie zapisać sumę w nawiasie jako Otrzymujesz:j=1pXijβj=xiTβ

i=1NXikYii=1NXikxiTβ=0

Teraz mamy tych równań i „ułożymy je” w wektorze kolumny. Zauważ, że jest jedynym terminem zależnym od , więc możemy ułożyć to w wektor i otrzymamy:pXikkxi

i=1NxiYi=i=1NxixiTβ

Teraz możemy wziąć wersję beta poza sumę (ale musi pozostać na RHS sumy), a następnie wziąć odwrotność:

(i=1NxixiT)1i=1NxiYi=β
prawdopodobieństwo prawdopodobieństwa
źródło