Nie rozumiem, dlaczego zmniejszenie wymiaru jest ważne. Jakie są korzyści z pobrania niektórych danych i zmniejszenia ich wymiaru?
dimensionality-reduction
svd
Whuber
źródło
źródło
Odpowiedzi:
Dekompozycja wartości pojedynczej (SVD) to nie to samo, co zmniejszenie wymiarów danych. Jest to metoda dekompozycji macierzy na inne macierze, która ma wiele wspaniałych właściwości, których nie będę tutaj omawiać. Więcej informacji na temat SVD znajduje się na stronie Wikipedii .
Zmniejszenie wymiarów danych jest czasem bardzo przydatne. Możliwe, że masz dużo więcej zmiennych niż obserwacji; nie jest to rzadkie w pracy genomowej. Może się zdarzyć, że mamy kilka zmiennych, które są bardzo silnie skorelowane, np. Gdy są pod silnym wpływem niewielkiej liczby czynników podstawowych i chcemy odzyskać pewne przybliżenie do czynników podstawowych. Techniki zmniejszania wymiarów, takie jak analiza głównych składników, skalowanie wielowymiarowe i analiza zmiennych kanonicznych, dają nam wgląd w relacje między obserwacjami i / lub zmiennymi, których nie moglibyśmy uzyskać w żaden inny sposób.
Konkretny przykład: kilka lat temu analizowałem ankietę satysfakcji pracowników, która zawierała ponad 100 pytań. Cóż, żaden menedżer nigdy nie będzie w stanie spojrzeć na ponad 100 pytań wartych odpowiedzi, nawet streszczonych, i zrobić coś więcej niż zgadywać, co to wszystko znaczy, ponieważ kto może powiedzieć, w jaki sposób odpowiedzi są powiązane i co je napędza, naprawdę ? Przeprowadziłem analizę czynnikową danych, dla której miałem ponad 10 000 obserwacji, i opracowałem pięć bardzo jasnych i łatwych do interpretacji czynników, które można by wykorzystać do opracowania wyników specyficznych dla menedżera (po jednym dla każdego czynnika), które podsumowałyby całość ponad 100 pytań ankietowych. O wiele lepsze rozwiązanie niż zrzut arkusza kalkulacyjnego Excel, który był wcześniejszą metodą raportowania wyników!
źródło
Jeśli chodzi o drugi punkt pytania, korzyści wynikające ze zmniejszenia wymiarów dla zestawu danych mogą być:
Poza tym, poza PCA, SVD ma wiele zastosowań w przetwarzaniu sygnałów, NLP i wielu innych
źródło
Spójrz na moją odpowiedź . Dekompozycja wartości pojedynczych jest kluczowym elementem analizy głównych składników , która jest bardzo przydatną i bardzo zaawansowaną techniką analizy danych.
Jest często używany w algorytmach rozpoznawania twarzy i często go używam w mojej pracy jako analityk funduszy hedgingowych.
źródło