Biorąc pod uwagę aproksymację PCA (lub SVD) macierzy z macierzą , wiemy, że jest najlepszym przybliżeniem niskiej rangi . X X
Czy jest to zgodne z indukowaną normą (tj. Największą normą wartości własnej), czy zgodnie z normą Frobenius ?
źródło
Biorąc pod uwagę aproksymację PCA (lub SVD) macierzy z macierzą , wiemy, że jest najlepszym przybliżeniem niskiej rangi . X X
Czy jest to zgodne z indukowaną normą (tj. Największą normą wartości własnej), czy zgodnie z normą Frobenius ?
‖X‖F=√
PCA otrzymuje ten sam rozkład wartości w liczbie pojedynczej, gdy dane są wyśrodkowane. są głównymi składnikami, są głównymi osiami, tj. Wektorami własnymi macierzy kowariancji, a rekonstrukcję z tylko głównymi składnikami odpowiadającymi największym pojedynczym wartościom daje .V X k k X k = U k S k V ⊤ k
Twierdzenie Eckarta-Younga mówi, że jest macierzą minimalizującą normę błędu rekonstrukcjispośród wszystkich macierzy rangi . Dotyczy to zarówno normy Frobeniusa, jak i operatora -norm. Jak zauważył @cardinal w komentarzach, po raz pierwszy udowodnił to Schmidt (sława Gram-Schmidta) w 1907 r. W sprawie Frobenius. Później został ponownie odkryty przez Eckarta i Younga w 1936 r. I obecnie jest kojarzony głównie z ich nazwami. Mirsky uogólnił twierdzenie z 1958 r. Na wszystkie normy niezmienne przy przekształceniach jednostkowych, w tym na operatora 2-normę. ‖ X - A ‖ A k 2
Twierdzenie to jest czasem nazywane twierdzeniem Eckarta-Younga-Mirsky'ego. Stewart (1993) nazywa to twierdzeniem przybliżenia Schmidta. Widziałem nawet, że nazywa się to twierdzeniem Schmidta-Eckarta-Younga-Mirsky'ego.
Niech będzie pełnej rangi . Ponieważ ma rangę , jego pusta przestrzeń ma wymiary . Przestrzeń łączona przez prawych wektorów pojedynczych odpowiadających największym wartościom pojedynczym ma wymiary . Te dwie przestrzenie muszą się przecinać. Niech będzie wektorem jednostkowym od przecięcia. Następnie otrzymujemy: QED.n A k n - k k + 1 X k + 1 w ‖ X - A ‖ 2 2 ≥ ‖ ( X - A ) w ‖ 2 2 = ‖ X w ‖ 2 2 = k + 1 ∑ i = 1 s 2 i ( v ⊤ i w ) 2 ≥ s 2
Chcemy znaleźć macierz rangi która minimalizuje . Możemy faktoryzować , gdzie ma kolumn ortonormalnych. Minimalizowanie dla ustalonego jest problemem regresji z rozwiązaniem . Podłączając go, widzimy, że musimy teraz zminimalizować gdzie jest macierzą kowariancji , tj.
Jest dobrze wiadomo, że są to pierwsze wektory własne macierzy kowariancji. Rzeczywiście, jeśli , to . Pisząc który ma również kolumny ortonormalne, otrzymujemy z maksimum osiągniętym, gdy . Twierdzenie to następuje natychmiast.
Zobacz następujące trzy powiązane wątki:
Ten dowód znalazłem gdzieś w Internecie, ale jest błędny (zawiera lukę), jak wyjaśniono w @cardinal w komentarzach.
Norma Frobeniusa jest niezmienna w jednostkowych przekształceniach, ponieważ nie zmieniają one wartości pojedynczych. Otrzymujemy więc: gdzie . Kontynuacja:Przy czym minimalizuje się przy wszystkich elementów niediagonalnych są równe zero, a wszystkie ukośne warunki niwelować największych wartości singularnych [szczelinę na: nie jest to oczywiste] tj a więc .