Po co zawracać sobie głowę przybliżeniami niskiej rangi?

20

Jeśli masz macierz z n rzędami im kolumnami, możesz użyć SVD lub innych metod, aby obliczyć przybliżenie niskiej macierzy dla podanej macierzy.

Jednak przybliżenie niskiego rzędu nadal będzie miało n wierszy i m kolumn. W jaki sposób przybliżenia niskiego poziomu mogą być przydatne w uczeniu maszynowym i przetwarzaniu języka naturalnego, skoro masz tyle samo funkcji?

Zach
źródło
2
Zwykle mają one rzadkie reprezentacje - nie trzeba przechowywać liczb za niską rankingu zbliżenia. Na przykład przybliżenie rangi 1 wymaga liczb n + m . mnn+m
probabilityislogic

Odpowiedzi:

16

Niski stopień przybliżenie X z X może być rozłożony w matrycy pierwiastka jak G = U R λ 1X^Xw którym rozkład eigen zXjestUXut, a tym samym zmniejszenie liczby funkcji, która może być reprezentowana przezGw oparciu o stopień zbliżenia-r coX=GGT. Należy zauważyć, że indeks dolnyr reprezentuje liczbę wektorów własnych i wartości własnych użytych w przybliżeniu. W ten sposób zmniejsza liczbę funkcji reprezentujących dane. W niektórych przykładach aproksymacje niskiej rangi są uważane za rozszerzenia oryginalnych danych oparte na zmiennych lub ukrytych (słownikach), przy specjalnych ograniczeniach, takich jak ortogonalność, brak negatywności (nieujemne rozkładanie macierzy) itp.G=Urλr12XUλUTGX^=GGTr

karawan
źródło
5

Punkt aproksymacji niskiego rzędu niekoniecznie służy wyłącznie do zmniejszenia wymiarów.

Chodzi o to, że w oparciu o wiedzę domenową dane / wpisy matrycy w jakiś sposób sprawią, że matryca będzie niskiej rangi. Jest to jednak idealny przypadek, gdy na wpisy nie ma wpływu hałas, uszkodzenie, brakujące wartości itp. Obserwowana matryca zwykle ma znacznie wyższą rangę.

Przybliżenie niskiej rangi jest zatem sposobem na odzyskanie „oryginalnej” („idealnej” macierzy, zanim została zmieszana przez hałas itp.) Macierzy niskiej rangi, tj. Znalezienie macierzy, która jest najbardziej spójna (pod względem obserwowanych wpisów) z bieżącą matrycą i jest niskiej rangi, dzięki czemu można ją wykorzystać jako przybliżenie idealnej macierzy. Po odzyskaniu tej matrycy możemy ją wykorzystać jako substytut głośnej wersji i mam nadzieję, że uzyskamy lepsze wyniki.

lightalchemist
źródło
4

Jeszcze dwa powody, o których dotychczas nie wspomniano:

  1. Zmniejszenie kolinearności. Uważam, że większość z tych technik usuwa kolinearność, co może być pomocne w dalszym przetwarzaniu.

  2. Nasza wyobraźnia jest niskiej rangi, więc może być pomocna w badaniu związków o niskiej randze.

Wayne
źródło
3

Po ustaleniu rangi przybliżenia (powiedz r<m), zatrzymasz tylko r wektory podstawowe do wykorzystania w przyszłości (powiedzmy jako predyktory w problemach z regresją lub klasyfikacją), a nie oryginalne m.

JohnRos
źródło
1

Według „nowoczesnych wielowymiarowych technik statystycznych (Izenman)” zmniejszona regresja rang obejmuje kilka interesujących metod, jako przypadki szczególne, w tym PCA, analizę czynnikową, analizę zmienności kanonicznej i analizę korelacji, analizę LDA i analizę korespondencji

użytkownik1137731
źródło