Jak możesz udowodnić, że równania normalne: mają jedno lub więcej rozwiązań bez założenia, że X jest odwracalny?
Domyślam się tylko, że ma to coś wspólnego z uogólnioną odwrotnością, ale jestem całkowicie zagubiony.
regression
proof
ryati
źródło
źródło
Odpowiedzi:
Można pokusić się o gadanie i zwrócenie na to uwagi, ponieważ forma kwadratowa
jest dodatnia półokreślona, istnieje dla której jest minimalna i to minimum jest znalezione (poprzez ustawienie gradientu względem na zero) z równaniami normalnymiββ β
skąd musi być co najmniej jedno rozwiązanie niezależnie od rangiX′X . Argument ten nie wydaje się jednak zgodny z duchem pytania, które wydaje się być stwierdzeniem czysto algebraicznym. Być może interesujące jest zrozumienie, dlaczego takie równanie musi mieć rozwiązanie i dokładnie w jakich warunkach. Zacznijmy więc od nowa i udawaj, że nie znamy połączenia z najmniejszymi kwadratami.
To wszystko sprowadza się do znaczenia , transpozycją . Okaże się, że jest to kwestia prostej definicji, odpowiedniej notacji i koncepcji niedegenerowanej formy seskwilinowej. Przypomnijmy, że jest „macierzą projektową” wierszy (po jednej dla każdej obserwacji) i kolumn (po jednej dla każdej zmiennej, w tym stałej, jeśli występuje). Reprezentuje zatem liniową transformację z przestrzeni wektorowej do . X X n p V = R p W = R nX′ X X n p V=Rp W=Rn
Transpozycja , uważana za transformację liniową , jest liniową transformacją podwójnych przestrzeni . Aby zrozumieć kompozycję taką jak , konieczne jest zidentyfikowanie pomocą . Tak właśnie działa zwykły iloczyn wewnętrzny (suma kwadratów) na .X ′ : W ∗ → V ∗ X ′ X W ∗ W WX X′:W∗→V∗ X′X W∗ W W
W rzeczywistości istnieją dwie wewnętrzne produkty i zdefiniowane w i odpowiednio. Są to dwueliniowe funkcje symetryczne o wartościach rzeczywistych, które nie są zdegenerowane . To ostatnie oznacza, żeg W V WgV gW V W
z analogicznymi instrukcjami dla . Geometrycznie te wewnętrzne produkty pozwalają nam mierzyć długość i kąt. Warunkiem mogą być traktowane jako jako "prostopadłe" z . Niedegeneracja oznacza, że tylko wektor zerowy jest prostopadły do całej przestrzeni wektorowej. (Ta ogólność oznacza, że uzyskane tutaj wyniki będą miały zastosowanie do uogólnionego ustawienia najmniejszych kwadratów , dla którego niekoniecznie jest zwykłym iloczynem wewnętrznym podanym jako suma iloczynów składników, ale jest jakąś dowolną niedegenerowaną postacią. Możemy całkowicie zrezygnować z , definiując g ( u , v ) = 0 u v g W g V X ′ : W → V ∗gV g(u,v)=0 u v gW gV X′:W→V∗ , ale spodziewam się, że wielu czytelników nie będzie zaznajomionych z podwójnymi spacjami lub nie będzie się z nimi czuć, dlatego wybieram unikanie tego sformułowania).
Mając te wewnętrzne produkty w dłoni, transpozycja dowolnej transformacji liniowej jest zdefiniowana przez przezX ′ : W → VX:V→W X′:W→V
wszystkie i . To, że faktycznie istnieje wektor z tą właściwością, można ustalić poprzez zapisanie rzeczy na podstawie dla i ; że ten wektor jest unikalny, wynika z braku degeneracji produktów wewnętrznych. Jeśli bowiem i są dwoma wektorami, dla których dla wszystkich , to (z liniowości w pierwszym składniku) dla wszystkich implikujących . v ∈ V X ′ ( w ) ∈ V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v ∈ V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0w∈W v∈V X′(w)∈V V W v1 v2 gV(v1,v)=gV(v2,v) v∈V gV(v1−v2,v)=0 v v1−v2=0
Gdy zapisu dla zbioru wszystkich wektorów prostopadły do każdego wektora w . Również w celu notacji napisz dla obrazu , zdefiniowanego jako zbiór . Podstawowym związkiem między i jego transpozycją jestU ⊥ U X ( V ) X { X ( v ) | v ∈ V } ⊂ W X X ′U⊂W, U⊥ U X(V) X {X(v)|v∈V}⊂W X X′
Oznacza to, że jest w jądra wtedy i tylko wtedy, gdy jest prostopadła do obrazu . X ′ w Xw X′ w X To twierdzenie mówi dwie rzeczy:
Jeśli , to dla wszystkich , co jedynie oznacza, że jest prostopadła do .g W ( w , X ( v ) ) = g V ( X ′ ( w ) , v ) = g V ( 0 , v ) = 0 v ∈ V w X ( V )X′(w)=0 gW(w,X(v))=gV(X′(w),v)=gV(0,v)=0 v∈V w X(V)
Jeśli jest prostopadłe do , oznacza to tylko dla wszystkich , ale jest to równoważne a nieregeneracja implikuje .X ( V ) g W ( w , X ( v ) ) = 0 v ∈ V g V ( X ′ ( w ) , v ) = 0 g V X ′ ( w ) = 0w X(V) gW(w,X(v))=0 v∈V gV(X′(w),v)=0 gV X′(w)=0
Już skończyliśmy. Analiza wykazała, że rozkłada się jako produkt bezpośredni . Oznacza to, że możemy wziąć dowolne i zapisać je jednoznacznie jako z i . Oznacza to, że ma postać dla co najmniej jednej . Zauważ więc, żeW = X ( V ) ⊕ X ( V ) ⊥ y ∈ W y = y 0 + y ⊥ y 0 ∈ X ( V ) y ⊥ ∈ X ( V ) ⊥ y 0 X ( β ) β ∈ VW W=X(V)⊕X(V)⊥ y∈W y=y0+y⊥ y0∈X(V) y⊥∈X(V)⊥ y0 X(β) β∈V
Podstawowa relacja mówi, że jest to to samo, co lewa strona znajdująca się w jądrze :X′
skąd rozwiązuje równania normalneX ′ X β = X ′ y .β X′Xβ=X′y.
Jesteśmy teraz w stanie udzielić krótkiej geometrycznej odpowiedzi na pytanie (wraz z kilkoma odkrywczymi komentarzami): równania normalne mają rozwiązanie, ponieważ każdy wektor rozkłada się (jednoznacznie) jako suma wektora w zakresie od i innego wektora prostopadle do i jest obrazem z co najmniej jednym -wektor . Wymiar obrazu (jego ranga ) jest wymiarem możliwych do zidentyfikowania parametrów. Wymiar jądray ∈ W y 0 X y ⊥ y 0 y 0 p β ∈ V X ( V ) X X V Wn y∈W y0 X y⊥ y0 y0 p β∈V X(V) X zlicza nietrywialne relacje liniowe między parametrami. Wszystkie parametry są oznaczone gdy jest mapa z jednego do jednego jego obrazu w .X V W
W końcu jest przydatny do dozowania z przestrzenią całkowicie i pracy wyłącznie z podprzestrzeni , „przestrzeń kolumna” macierzy . Równań normalnych wynoszą prostopadłym rzucie na . To uwalnia nas koncepcyjnie od powiązania z jakąkolwiek konkretną parametryzacją modelu i pokazuje, że modele najmniejszych kwadratów mają wewnętrzny wymiar niezależny od tego, w jaki sposób zostały sparametryzowane.U = X ( V ) ⊂ W X UV U=X(V)⊂W X U
Jednym z interesujących rezultatów tej abstrakcyjnej demonstracji algebraicznej jest to, że możemy rozwiązać równania normalne w dowolnych przestrzeniach wektorowych. Wynik odnosi się, powiedzmy, do przestrzeni złożonych, do przestrzeni nad polami skończonymi (gdzie minimalizacja sumy kwadratów nie ma większego sensu), a nawet nad przestrzeniami o nieskończonych wymiarach, które obsługują odpowiednie formy sekwencyjne.
źródło
Łatwo jest wykazać (spróbuj sam, dla dowolnej liczby punktów, ), że istnieje odwrotność , jeśli w zestawie próbek występują co najmniej dwie różne wartości (predyktory). Tylko jeśli wszystkie twoje dane mają takie same wartości (tj. Punkty ułożone w kierunku , wzdłuż linii pionowej), wówczas każda linia poprowadzona przez ich średnią linię będzie miała dowolne nachylenie (współczynnik regresji) , dzięki czemu linia regresji LSE nie jest unikalna.n XTX x xi=x y y¯¯¯
źródło
W typowej regresji X jest chudy i dlatego z pewnością nie jest odwracalny (choć może być odwrócony). Łatwo jest udowodnić (zapytać, czy potrzebujesz pomocy), że jeśli X jest chudy i pozostawiony odwracalny, to X ^ T * X jest odwracalny. W takim przypadku będzie dokładnie jedno rozwiązanie. A jeśli X nie ma pełnej rangi kolumny, X ^ T * X nie będzie pełnej rangi, a zatem będziesz miał niedookreślony system.
źródło