Jaki jest sens dekompozycji pojedynczej wartości?

9

Nie rozumiem, dlaczego zmniejszenie wymiaru jest ważne. Jakie są korzyści z pobrania niektórych danych i zmniejszenia ich wymiaru?

Whuber
źródło
3
Ton pytania nie zachęca do konstruktywnych odpowiedzi. Proszę rozważyć przeredagowanie pytania.
Sasha
2
Chodzi o to, aby zmniejszyć objętość danych potrzebnych do przechowywania niektórych informacji jako koszt niewielkiej utraty dokładności (np. Kompresja obrazu JPEG).
Sasha
2
Dziękuję za komentarze, @Sasha. To rozsądne pytanie, dlatego dokonałem drobnej edycji, aby uniknąć wrażenia bezczelności (z pewnością niezamierzonej) wynikającej z oryginalnego sformułowania.
whuber
Zobacz stats.stackexchange.com/questions/177102/... na przykład!
kjetil b halvorsen
Robisz SVD dla modelowania tematów, które NIE są probabilistyczne. Do modelowania tematów, które są probabilistyczne, należy użyć LDA. Jeśli NIE wykonujesz modelowania tematów, użyj PCA.
Brad

Odpowiedzi:

18

Dekompozycja wartości pojedynczej (SVD) to nie to samo, co zmniejszenie wymiarów danych. Jest to metoda dekompozycji macierzy na inne macierze, która ma wiele wspaniałych właściwości, których nie będę tutaj omawiać. Więcej informacji na temat SVD znajduje się na stronie Wikipedii .

Zmniejszenie wymiarów danych jest czasem bardzo przydatne. Możliwe, że masz dużo więcej zmiennych niż obserwacji; nie jest to rzadkie w pracy genomowej. Może się zdarzyć, że mamy kilka zmiennych, które są bardzo silnie skorelowane, np. Gdy są pod silnym wpływem niewielkiej liczby czynników podstawowych i chcemy odzyskać pewne przybliżenie do czynników podstawowych. Techniki zmniejszania wymiarów, takie jak analiza głównych składników, skalowanie wielowymiarowe i analiza zmiennych kanonicznych, dają nam wgląd w relacje między obserwacjami i / lub zmiennymi, których nie moglibyśmy uzyskać w żaden inny sposób.

Konkretny przykład: kilka lat temu analizowałem ankietę satysfakcji pracowników, która zawierała ponad 100 pytań. Cóż, żaden menedżer nigdy nie będzie w stanie spojrzeć na ponad 100 pytań wartych odpowiedzi, nawet streszczonych, i zrobić coś więcej niż zgadywać, co to wszystko znaczy, ponieważ kto może powiedzieć, w jaki sposób odpowiedzi są powiązane i co je napędza, naprawdę ? Przeprowadziłem analizę czynnikową danych, dla której miałem ponad 10 000 obserwacji, i opracowałem pięć bardzo jasnych i łatwych do interpretacji czynników, które można by wykorzystać do opracowania wyników specyficznych dla menedżera (po jednym dla każdego czynnika), które podsumowałyby całość ponad 100 pytań ankietowych. O wiele lepsze rozwiązanie niż zrzut arkusza kalkulacyjnego Excel, który był wcześniejszą metodą raportowania wyników!

łucznik
źródło
Metodę zwaną „cienkim SVD” stosuje się w celu zmniejszenia wymiarów. Zobacz Wikipedia na SVD.
cyborg
5

Jeśli chodzi o drugi punkt pytania, korzyści wynikające ze zmniejszenia wymiarów dla zestawu danych mogą być:

  • zmniejszyć potrzebne miejsce do przechowywania
  • przyspieszenie obliczeń (na przykład w algorytmach uczenia maszynowego), mniej wymiarów oznacza mniejsze obliczenia, również mniej wymiarów może pozwolić na użycie algorytmów nieodpowiednich dla dużej liczby wymiarów
  • usuń zbędne funkcje, na przykład nie ma sensu zapisywania wielkości terenu zarówno w metrach kwadratowych, jak i milach kwadratowych (być może zbieranie danych było wadliwe)
  • zredukowanie wymiaru danych do 2D lub 3D może pozwolić nam na wykreślenie i wizualizację, być może obserwowanie wzorów, dostarczenie nam wglądu

Poza tym, poza PCA, SVD ma wiele zastosowań w przetwarzaniu sygnałów, NLP i wielu innych

clyfe
źródło
2

Spójrz na moją odpowiedź . Dekompozycja wartości pojedynczych jest kluczowym elementem analizy głównych składników , która jest bardzo przydatną i bardzo zaawansowaną techniką analizy danych.

Jest często używany w algorytmach rozpoznawania twarzy i często go używam w mojej pracy jako analityk funduszy hedgingowych.

Chris Taylor
źródło
1
Czy SVD i PCA (podczas gdy są powiązane) nie są różnymi procedurami?
B_Miner
2
Masz rację. SVD to metoda uzyskania rozwiązania problemu PCA.
bayerj
1
@B_Miner Tak - dlatego powiedziałem, że svd jest kluczowym elementem pca. Skoncentrowałem się na PCA, ponieważ pytanie dotyczy zmniejszenia wymiarów (dla którego PCA jest odpowiednie, a DVD nie jest)
Chris Taylor
Być może wybór słowa komponent był tym, co tymczasowo odrzuciło @B_Miner. :)
kardynał