Czy kolejność zmiennych objaśniających ma znaczenie przy obliczaniu ich współczynników regresji?

24

Początkowo myślałem, że kolejność nie ma znaczenia, ale potem przeczytałem o procesie ortogonalizacji Gram-Schmidta do obliczania wielu współczynników regresji, a teraz mam inne przemyślenia.

Zgodnie z procesem gram-schmidta, im później zmienna objaśniająca jest indeksowana wśród innych zmiennych, tym mniejszy jest jej wektor resztkowy, ponieważ odejmuje się od niego wektory resztkowe poprzedzających zmiennych. W rezultacie współczynnik regresji zmiennej objaśniającej jest również mniejszy.

Jeśli to prawda, to wektor resztkowy danej zmiennej byłby większy, gdyby został wcześniej zindeksowany, ponieważ odejmowanych byłoby mniej wektorów resztkowych. Oznacza to, że współczynnik regresji byłby również większy.

Ok, więc zostałem poproszony o wyjaśnienie mojego pytania. Więc zamieściłem zrzuty ekranu z tekstu, który wprawił mnie w zakłopotanie. OK, proszę bardzo.

Rozumiem, że istnieją co najmniej dwie opcje obliczania współczynników regresji. Pierwsza opcja jest oznaczona (3.6) na zrzucie ekranu poniżej.

Pierwszy sposób

Oto druga opcja (musiałem użyć wielu zrzutów ekranu).

Drugi sposób

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

O ile czegoś źle nie odczytam (co jest zdecydowanie możliwe), wydaje się, że kolejność ma znaczenie w drugiej opcji. Czy to ma znaczenie w pierwszej opcji? Dlaczego lub dlaczego nie? A może mój układ odniesienia jest tak zawalony, że nie jest to nawet ważne pytanie? Czy to wszystko ma jakiś związek z sumą kwadratów typu I i sumą kwadratów typu II?

Z góry dziękuję, jestem taki zdezorientowany!

Ryan Zotti
źródło
1
Czy mógłbyś nakreślić dokładną procedurę obliczania współczynników? Z tego, co wiem o ortogonalizacji gram-schmidta i o tym, jak można ją zastosować do problemu regresji, mogę założyć, że stosując procedurę gs można dopasować regresję, ale nie oryginalne współczynniki. Zauważ, że dopasowanie regresji jest rzutem na przestrzeń kolumn. Jeśli ortogonalizujesz kolumny, otrzymasz ortogonalną podstawę przestrzeni obejmującej kolumny, dlatego dopasowanie będzie liniową kombinacją tej podstawy, a także liniową kombinacją oryginalnych kolumn. Będzie tak samo ...
mpiktas
ale współczynniki będą różne. To jest całkowicie normalne.
mpiktas
Myślę, że jestem zdezorientowany, ponieważ pomyślałem, że przeczytałem w „Elementach statystycznego uczenia się”, że współczynniki obliczone przy użyciu procesu gram-schmidta będą takie same jak współczynniki obliczone przy użyciu tradycyjnego procesu: B = (X'X) ^ - 1 X'y.
Ryan Zotti
Oto fragment książki, która mówi o procedurze: „Możemy zobaczyć oszacowanie [współczynników] jako wynik dwóch zastosowań prostej regresji. Kroki są następujące: 1. regresuj x na 1, aby uzyskać resztkowe z = x - x ̄1; 2. cofnij y na resztkowej wartości z, aby uzyskać współczynnik βˆ1. Przepis ten uogólnia się na przypadek wejść p, jak pokazano w algorytmie 3.1. Zauważ, że dane wejściowe z0, ..., zj − 1 w kroku 2 są ortogonalne, stąd obliczone proste współczynniki regresji są w rzeczywistości również współczynnikami regresji wielokrotnej. ”
Ryan Zotti
Robi się trochę niechlujny, gdy kopiuję i wklejam tutaj sekcję komentarzy, więc prawdopodobnie najlepiej po prostu spojrzeć bezpośrednio na źródło. Jest to strona 53 do 54 „Elementów statystycznego uczenia się”, którą można bezpłatnie pobrać ze strony Stanforda: www-stat.stanford.edu/~tibs/ElemStatLearn .
Ryan Zotti

Odpowiedzi:

22

Uważam, że zamieszanie może wynikać z czegoś nieco prostszego, ale daje mi dobrą okazję do przeglądu niektórych powiązanych kwestii.

β^jaΒ str

β^ja=?y,zjazja2),
β^p

Kolejny schemat ortogonalizacji (forma ortogonalizacji Gram – Schmidta) (prawie) tworzy parę macierzy i takie, że gdzieG X = Z GZsolZ n × p G = ( g i j ) p × p Z G

X=Zsol,
Z jest pz kolumnami ortonormalnymi, a jest górny trójkątny. Mówię „prawie”, ponieważ algorytm określa tylko do norm kolumn, które na ogół nie będą jednością, ale można sprawić, by miały normę jednostkową poprzez normalizację kolumn i dokonanie odpowiedniego prostego dostosowania współrzędnych matryca .n×psol=(soljajot)p×pZsol

Zakładając oczywiście, że ma rangę , unikalnym rozwiązaniem najmniejszych kwadratów jest wektor który rozwiązuje układ s n β X t X β = X T YXRn×ppnβ^

XT.Xβ^=XT.y.

Zastępstwo Z T Z = I G T G β = G , T Z T YX=Zsol i używając (z konstrukcji), otrzymujemy co jest równoważne ZT.Z=jaG β = Z , T r

solT.solβ^=solT.ZT.y,
solβ^=ZT.y.

Teraz skoncentruj się na ostatnim rzędzie układu liniowego. Jedynym niezerowym elementem w ostatnim wierszu jest . Otrzymujemy więc g s s g s P β p = y , oo ssolsolppg p p = z pz i

solppβ^p=y,zp.
Nietrudno dostrzec (zweryfikować to jako sprawdzenie zrozumienia!), Żei to daje rozwiązanie. ( Lektor z : użyłem już znormalizowanego, aby mieć normę jednostkową, podczas gdy w książce tego nie mają . To wyjaśnia fakt, że książka ma kwadratową normę w mianowniku, podczas gdy ja mam tylko normę.)solpp=zpzja

Aby znaleźć wszystkie współczynniki regresji, należy wykonać prosty krok do zastąpienia w celu rozwiązania dla indywidualnego . Na przykład dla wiersza(P-1)gp-1,p-1 β s-1+gp-1,str β p=oop-1,Yβ^ja(p-1) , a więc Można kontynuować tę procedurę, pracując „wstecz” od ostatniego wiersza systemu do pierwszego, odejmując ważone sumy współczynników regresji już obliczonych, a następnie dzieląc przez wiodący termin aby uzyskać .Β s - 1 = g - 1 p - 1 , p - 1oo p - 1 , Y

solp-1,p-1β^p-1+solp-1,pβ^p=zp-1,y,
β^p-1=solp-1,p-1-1zp-1,y-solp-1,p-1-1solp-1,pβ^p.
soljajaβ^ja

Chodzi o to, że w sekcji ESL możemy zmienić kolejność kolumn aby uzyskać nową macierz przy czym ta oryginalna kolumna jest teraz ostatnią. Jeśli następnie zastosujemy procedurę Gram – Schmidta na nowej macierzy, otrzymamy nową ortogonalizację, dzięki czemu rozwiązanie dla pierwotnego współczynnika znajdziemy w prostym powyższym rozwiązaniu. To daje nam interpretację współczynnika regresji . Jest to regresja jednowymiarowa na wektorze resztkowym uzyskana przez „regresję” pozostałych kolumn macierzy projektowej z .XX(r)rβ^rβ^ryxr

Ogólne rozkłady QR

Procedura Gram-Schmidt ale Sposób wytwarzania QR rozkład . Rzeczywiście istnieje wiele powodów, aby preferować inne podejścia algorytmiczne niż procedurę Gram – Schmidta.X

Odbicia domu i rotacje Givens zapewniają bardziej stabilne numerycznie podejście do tego problemu. Należy zauważyć, że powyższy rozwój nie zmienia się w ogólnym przypadku rozkładu QR. Mianowicie, niech być dowolnego rozkładu QR . Następnie, stosując dokładnie takie same rozumowania i manipulacje algebraiczne, jak powyżej, mamy rozwiązanie najmniejszych kwadratów spełnia co upraszcza Ponieważ jest trójkątem górnym, działa ta sama technika zastępowania. Najpierw rozwiązujemy dla

X=QR,
Xβ^
RT.Rβ^=RT.QT.y,
Rβ^=QT.y.
Rβ^pa następnie przejdź do tyłu od dołu do góry. Wybór dla których QR rozkładu algorytm użyć ogólnie zawiasy kontrolowanie niestabilności numerycznej i z tej perspektywy, Gram-Schmidt generalnie nie jest konkurencyjna podejście.

Pojęcie dekompozycji jako macierzy ortogonalnej razy coś innego można również uogólnić nieco dalej, aby uzyskać bardzo ogólną formę dopasowanego wektora , ale obawiam się, że ta odpowiedź stała się już zbyt długa .Xy^

kardynał
źródło
6

książkę i wygląda na to, że ćwiczenie 3.4 może być przydatne w zrozumieniu koncepcji używania GS do znalezienia wszystkich współczynników regresji (nie tylko współczynnika końcowegoβjotβp - więc napisałem rozwiązanie. Mam nadzieję, że to jest przydatny.

Ćwiczenie 3.4 w języku ESL

Pokaż, w jaki sposób można uzyskać wektor współczynników najmniejszych kwadratów z jednego przejścia procedury Grama-Schmidta. Reprezentuj swoje rozwiązanie pod względem rozkładu QRX .

Rozwiązanie

Przypomnijmy, że za pomocą jednego przejścia procedury Grama-Schmidta możemy zapisać naszą macierz jako gdzie zawiera kolumny ortogonalne , a jest macierzą o górnej przekątnej z tymi na przekątnej, a . Jest to odzwierciedleniem faktu, że z definicjiX

X=ZΓ,
ZzjotΓγjajot=zja,xjotzja2)
xjot=zjot+k=0jot-1γkjotzk.

Teraz przezQR rozkład , możemy napisaćX=QRQRQ=Zre-1R=reΓrerejotjot=zjot

β^

(XT.X)β^=XT.y.
QR
(RT.QT.)(QR)β^=RT.QT.yRβ^=QT.y

R

Rppβ^p=qp,yzpβ^p=zp-1zp,yβ^p=zp,yzp2)
β^jotβ^p-1
Rp-1,p-1β^p-1+Rp-1,pβ^p=qp-1,yzp-1β^p-1+zp-1γp-1,pβ^p=zp-1-1zp-1,y
β^p-1βjot
Andrew Tulloch
źródło
3

Dlaczego nie spróbować i porównać? Dopasuj zestaw współczynników regresji, a następnie zmień kolejność i dopasuj je ponownie i sprawdź, czy różnią się (inne niż możliwy błąd zaokrąglenia).

Jak wskazuje @mpiktas, nie jest do końca jasne, co robisz.

b(xx)b=(xy)(xx)

x1x2)x1yx2)yx1x2)yx1x1x2)

Greg Snow
źródło
Myślę, że twój ostatni akapit jest prawdopodobnie najbliżej źródła mojego pomieszania - GS ma znaczenie. Tak myślałem. Nadal jestem trochę zdezorientowany, ponieważ książka, którą czytam, zatytułowana: „The Elements of Statistics Learning” (publikacja Stanforda, która jest dostępna bezpłatnie: www-stat.stanford.edu/~tibs/ElemStatLearn ) wydaje się sugerują, że GS jest równoważne standardowemu podejściu do obliczania współczynników; to znaczy, B = (X'X) ^ - 1 X'y.
Ryan Zotti
I część tego, co mówisz, trochę mnie też dezorientuje: „Widzę użycie GS do rozwiązania dla B w równaniu najmniejszych kwadratów (x′x) ^ - 1 B = (x′y). Ale wtedy zrobiłbyś GS na macierzy (x′x), a nie na oryginalnych danych. ” Myślałem, że macierz x'x zawiera oryginalne dane? ... Przynajmniej tak mówią elementy uczenia statystycznego. Mówi, że x w x'x jest macierzą N na p, gdzie N jest liczbą danych wejściowych (obserwacji), a p jest liczbą wymiarów.
Ryan Zotti
Jeśli GS nie jest standardową procedurą obliczania współczynników, to jak zwykle traktowana jest kolinearność? W jaki sposób redundancja (kolinearność) jest zwykle rozdzielana między x? Czy kolinearność tradycyjnie powoduje, że współczynniki są niestabilne? Czy to nie sugeruje, że proces GS jest procesem standardowym? Ponieważ proces GS powoduje również, że współczynniki są niestabilne - mniejszy wektor resztkowy powoduje, że współczynnik jest niestabilny.
Ryan Zotti
Przynajmniej tak mówi tekst: „Jeśli xp jest silnie skorelowane z niektórymi innymi xk, wektor resztkowy zp będzie bliski zeru, a od (3.28) współczynnik βˆp będzie bardzo niestabilny”.
Ryan Zotti
2
Pamiętaj, że GS jest formą rozkładu QR.
kardynał