Pytanie o normalny dowód równania

11

Jak możesz udowodnić, że równania normalne: mają jedno lub więcej rozwiązań bez założenia, że ​​X jest odwracalny?(XTX)β=XTY

Domyślam się tylko, że ma to coś wspólnego z uogólnioną odwrotnością, ale jestem całkowicie zagubiony.

ryati
źródło
1
Zdobywasz punkty, zadając pytania, które wywołują niesamowite odpowiedzi.
Nikana Reklawyks,

Odpowiedzi:

14

Można pokusić się o gadanie i zwrócenie na to uwagi, ponieważ forma kwadratowa

β(YXβ)(YXβ)

jest dodatnia półokreślona, ​​istnieje dla której jest minimalna i to minimum jest znalezione (poprzez ustawienie gradientu względem na zero) z równaniami normalnymiβββ

XX(YXβ)=0,

skąd musi być co najmniej jedno rozwiązanie niezależnie od rangiXX . Argument ten nie wydaje się jednak zgodny z duchem pytania, które wydaje się być stwierdzeniem czysto algebraicznym. Być może interesujące jest zrozumienie, dlaczego takie równanie musi mieć rozwiązanie i dokładnie w jakich warunkach. Zacznijmy więc od nowa i udawaj, że nie znamy połączenia z najmniejszymi kwadratami.


To wszystko sprowadza się do znaczenia , transpozycją . Okaże się, że jest to kwestia prostej definicji, odpowiedniej notacji i koncepcji niedegenerowanej formy seskwilinowej. Przypomnijmy, że jest „macierzą projektową” wierszy (po jednej dla każdej obserwacji) i kolumn (po jednej dla każdej zmiennej, w tym stałej, jeśli występuje). Reprezentuje zatem liniową transformację z przestrzeni wektorowej do . X X n p V = R p W = R nXXXnpV=RpW=Rn

Transpozycja , uważana za transformację liniową , jest liniową transformacją podwójnych przestrzeni . Aby zrozumieć kompozycję taką jak , konieczne jest zidentyfikowanie pomocą . Tak właśnie działa zwykły iloczyn wewnętrzny (suma kwadratów) na .X : WVX X WW WX X:WVXXWWW

W rzeczywistości istnieją dwie wewnętrzne produkty i zdefiniowane w i odpowiednio. Są to dwueliniowe funkcje symetryczne o wartościach rzeczywistych, które niezdegenerowane . To ostatnie oznacza, żeg W V WgVgWVW

gW(u,v)=0 uWv=0,

z analogicznymi instrukcjami dla . Geometrycznie te wewnętrzne produkty pozwalają nam mierzyć długość i kąt. Warunkiem mogą być traktowane jako jako "prostopadłe" z . Niedegeneracja oznacza, że ​​tylko wektor zerowy jest prostopadły do ​​całej przestrzeni wektorowej. (Ta ogólność oznacza, że ​​uzyskane tutaj wyniki będą miały zastosowanie do uogólnionego ustawienia najmniejszych kwadratów , dla którego niekoniecznie jest zwykłym iloczynem wewnętrznym podanym jako suma iloczynów składników, ale jest jakąś dowolną niedegenerowaną postacią. Możemy całkowicie zrezygnować z , definiując g ( u , v ) = 0 u v g W g V X : WVgVg(u,v)=0uvgWgVX:WV, ale spodziewam się, że wielu czytelników nie będzie zaznajomionych z podwójnymi spacjami lub nie będzie się z nimi czuć, dlatego wybieram unikanie tego sformułowania).

Mając te wewnętrzne produkty w dłoni, transpozycja dowolnej transformacji liniowej jest zdefiniowana przez przezX : WVX:VWX:WV

gV(X(w),v)=gW(w,X(v))

wszystkie i . To, że faktycznie istnieje wektor z tą właściwością, można ustalić poprzez zapisanie rzeczy na podstawie dla i ; że ten wektor jest unikalny, wynika z braku degeneracji produktów wewnętrznych. Jeśli bowiem i są dwoma wektorami, dla których dla wszystkich , to (z liniowości w pierwszym składniku) dla wszystkich implikujących . v V X ( w ) V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0wWvVX(w)VVWv1v2gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

Gdy zapisu dla zbioru wszystkich wektorów prostopadły do każdego wektora w . Również w celu notacji napisz dla obrazu , zdefiniowanego jako zbiór . Podstawowym związkiem między i jego transpozycją jestUU X ( V ) X { X ( v ) | v V } W X X UW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

Oznacza to, że jest w jądra wtedy i tylko wtedy, gdy jest prostopadła do obrazu . X w XwXwX To twierdzenie mówi dwie rzeczy:

  1. Jeśli , to dla wszystkich , co jedynie oznacza, że jest prostopadła do .g W ( w , X ( v ) ) = g V ( X ( w ) , v ) = g V ( 0 , v ) = 0 v V w X ( V )X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. Jeśli jest prostopadłe do , oznacza to tylko dla wszystkich , ale jest to równoważne a nieregeneracja implikuje .X ( V ) g W ( w , X ( v ) ) = 0 v V g V ( X ( w ) , v ) = 0 g V X ( w ) = 0wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

Już skończyliśmy. Analiza wykazała, że rozkłada się jako produkt bezpośredni . Oznacza to, że możemy wziąć dowolne i zapisać je jednoznacznie jako z i . Oznacza to, że ma postać dla co najmniej jednej . Zauważ więc, żeW = X ( V ) X ( V ) y W y = y 0 + y y 0X ( V ) y X ( V ) y 0 X ( β ) β VWW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

Podstawowa relacja mówi, że jest to to samo, co lewa strona znajdująca się w jądrze :X

X(yXβ)=0,

skąd rozwiązuje równania normalneX X β = X y .βXXβ=Xy.


Jesteśmy teraz w stanie udzielić krótkiej geometrycznej odpowiedzi na pytanie (wraz z kilkoma odkrywczymi komentarzami): równania normalne mają rozwiązanie, ponieważ każdy wektor rozkłada się (jednoznacznie) jako suma wektora w zakresie od i innego wektora prostopadle do i jest obrazem z co najmniej jednym -wektor . Wymiar obrazu (jego ranga ) jest wymiarem możliwych do zidentyfikowania parametrów. Wymiar jądray W y 0 X y y 0 y 0 p β V X ( V ) X X V WnyWy0Xyy0y0pβVX(V)Xzlicza nietrywialne relacje liniowe między parametrami. Wszystkie parametry są oznaczone gdy jest mapa z jednego do jednego jego obrazu w .XVW

W końcu jest przydatny do dozowania z przestrzenią całkowicie i pracy wyłącznie z podprzestrzeni , „przestrzeń kolumna” macierzy . Równań normalnych wynoszą prostopadłym rzucie na . To uwalnia nas koncepcyjnie od powiązania z jakąkolwiek konkretną parametryzacją modelu i pokazuje, że modele najmniejszych kwadratów mają wewnętrzny wymiar niezależny od tego, w jaki sposób zostały sparametryzowane.U = X ( V ) W X UVU=X(V)WXU


Jednym z interesujących rezultatów tej abstrakcyjnej demonstracji algebraicznej jest to, że możemy rozwiązać równania normalne w dowolnych przestrzeniach wektorowych. Wynik odnosi się, powiedzmy, do przestrzeni złożonych, do przestrzeni nad polami skończonymi (gdzie minimalizacja sumy kwadratów nie ma większego sensu), a nawet nad przestrzeniami o nieskończonych wymiarach, które obsługują odpowiednie formy sekwencyjne.

Whuber
źródło
1
Nigdy wcześniej nie miałem przedstawiciela, który zaakceptował tę odpowiedź. Właśnie się z tym potknąłem i chciałem ci jeszcze raz podziękować!
ryati
Napisałbym tę kwadratową formę jako zamiast jako i użyj drugiej strzałki do takich rzeczy jak
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy
@Michael Twój komentarz musi zawierać błąd typograficzny. Czy mógłbyś wyjaśnić, co miałeś na myśli?
whuber
@whuber: Nie widzę błędu typograficznego. Chodzi o to, że dwie strzałki i mają różne znaczenie. ''''
Michael Hardy
@Michael Wybacz, że nie widziałem tego rozróżnienia pomimo wielu odczytów. Niezależnie od tego pierwsza dla mnie strzałka odnosi się do funkcji iniekcyjnej, podczas gdy druga odnosi się do dowolnej funkcji, ale podejrzewam, że nie tego zamierzacie. Czy mógłbyś wyjaśnić swoją notację?
whuber
0

Łatwo jest wykazać (spróbuj sam, dla dowolnej liczby punktów, ), że istnieje odwrotność , jeśli w zestawie próbek występują co najmniej dwie różne wartości (predyktory). Tylko jeśli wszystkie twoje dane mają takie same wartości (tj. Punkty ułożone w kierunku , wzdłuż linii pionowej), wówczas każda linia poprowadzona przez ich średnią linię będzie miała dowolne nachylenie (współczynnik regresji) , dzięki czemu linia regresji LSE nie jest unikalna.nXTXxxi=xyy¯

Lucozade
źródło
Dla kompletności dla prostej regresji liniowej, podczas gdy dla wielu regresji liniowych. X = [ 1 x 11x m 1 ; ; 1 x 1 nx m n ]X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]
Lucozade
3
Odniesienie do wielokrotnej regresji w komentarzu jest zagadkowe, ponieważ odpowiedź ta wyraźnie odnosi się tylko do przypadku zwykłej regresji, w której dopasowuje się „linię”, a nie powierzchnię o wyższych wymiarach. Co więcej, wydaje się, że odpowiedziałeś na inne pytanie: to pytanie dotyczy tylko przypadku, w którym nie jest odwracalny. XX
whuber
0

W typowej regresji X jest chudy i dlatego z pewnością nie jest odwracalny (choć może być odwrócony). Łatwo jest udowodnić (zapytać, czy potrzebujesz pomocy), że jeśli X jest chudy i pozostawiony odwracalny, to X ^ T * X jest odwracalny. W takim przypadku będzie dokładnie jedno rozwiązanie. A jeśli X nie ma pełnej rangi kolumny, X ^ T * X nie będzie pełnej rangi, a zatem będziesz miał niedookreślony system.

użytkownik542833
źródło
1
Uwagi te nie wydają się odpowiedzieć na pytanie: niezależnie od rangi , będzie nadal istnieć rozwiązanie. Jako przykład rozważmy ekstremalny przypadek, w którym jest macierzą wszystkich zer. Następnie równania normalne zmniejszają się do a dowolne jest rozwiązaniem. X 0 β = 0 βXXX0β=0 β
whuber
whuber: oczywiście odnoszą się do pytania: jedno rozwiązanie, jeśli X jest pełną pozycją kolumny (jak wspomniałem), i nieskończone rozwiązania, jeśli jest to system
nieokreślony
1
Fakt, że system jest „niedookreślony”, nie oznacza wcale, że ma jakieś rozwiązania. Pytanie dotyczy istnienia rozwiązań.
whuber