Załóżmy, że mam zbiór danych wymiarowych, w którym wymiary są w przybliżeniu ortogonalne (mają zerową korelację).N
Czy jest jakieś narzędzie pod względem:
- Wyobrażanie sobie
- Reprezentacja (dla wydajności klasyfikatora)
- Lub inne kryteria
wykonać redukcję wymiarowości danych?
pca
dimensionality-reduction
użytkownik1172468
źródło
źródło
Odpowiedzi:
Chciałem wyjaśnić komentarz pozostawiony pod odpowiedzią @ Peter-Flom, ale prawdopodobnie warto w odpowiedzi napisać. W jakim stopniu można zmniejszyć wymiary, uruchamiając PCA na prawie ortogonalnych danych? Odpowiedź brzmi „zależy” od tego, czy wykonasz PCA na macierzy korelacji czy kowariancji .
Jeśli używasz PCA na matrycy korelacji, to ponieważ będzie ona tylko nieznacznie różnić się od matrycy tożsamości, istnieje sferyczna symetria, która sprawia, że wszystkie kierunki są „równie pouczające”. Przeskalowanie wariancji zmiennych do jednego przed PCA jest matematycznie równoważnym podejściem, które da taki sam rezultat. Chociaż dane wyjściowe PCA zidentyfikują niektóre komponenty o nieco mniejszej wariancji niż inne, można to przypisać (jeśli przyjmiemy zerową korelację w populacji) jedynie niczym przypadkowym zmianom w próbie, więc nie byłby to dobry powód, aby je odrzucić składniki. W rzeczywistości taka różnica między standardowymi odchyleniami składników powinna zmniejszać się wraz ze wzrostem wielkości próbki. Możemy to potwierdzić w symulacji.
Wynik:
Jeśli jednak wykonasz PCA przy użyciu macierzy kowariancji zamiast macierzy korelacji (równoważnie: jeśli nie skalujemy standardowych odchyleń do 1 przed zastosowaniem PCA), odpowiedź zależy od rozprzestrzeniania się twoich zmiennych. Jeśli twoje zmienne mają tę samą wariancję, nadal mamy sferyczną symetrię, więc nie ma „uprzywilejowanego kierunku” i nie można osiągnąć redukcji wymiarów.
Jednak w przypadku kombinacji zmiennych o wysokiej i niskiej zmienności symetria przypomina bardziej elipsoidę z niektórymi szerokimi osiami, a inne cienkimi. W tej sytuacji będą ładowane komponenty o wysokiej wariancji na zmienne o dużej wariancji (gdzie elipsoida jest szeroka) i komponenty o niskiej wariancji na zmienne o niskiej wariancji (w których kierunkach elipsoida jest wąska).
Jeśli zmienne mają bardzo różne wariancje (ponownie geometrycznie elipsoidę, ale wszystkie osie się różnią), to ortogonalność pozwala pierwszemu komputerowi na bardzo duże obciążenie zmiennej o największej wariancji i tak dalej.
W dwóch ostatnich przypadkach istniały komponenty o niskiej wariancji, które można rozważyć wyrzucenie w celu uzyskania zmniejszenia wymiarów, ale robi to dokładnie tak samo, jak wyrzucenie zmiennych o najniższej wariancji . Zasadniczo ortogonalność pozwala zidentyfikować komponenty o niskiej wariancji za pomocą zmiennych o niskiej wariancji, więc jeśli zamierzasz zmniejszyć wymiarowość w ten sposób, nie jest jasne, czy skorzystałbyś na tym przy użyciu PCA.
Nota bene: czasu poświęconego na omawianie przypadku, w którym zmienne nie są przeskalowane do wariancji jednostkowej - tj. Przy użyciu kowariancji zamiast macierzy korelacji - nie powinno być traktowane jako wskazówka, że takie podejście jest w jakiś sposób ważniejsze, a na pewno nie to, że jest lepiej". Symetria sytuacji jest po prostu bardziej subtelna, dlatego wymaga dłuższej dyskusji.
źródło
Możesz wypróbować bardziej ogólną metodę uczenia się różnorodnej nieliniowej redukcji wymiarów, taką jak lokalnie liniowe osadzanie, laplacian eigenmaps lub t-SNE.
Jest całkowicie możliwe, że w twoich danych jest podprzestrzeń o niższych wymiarach (rozmaitość) w sposób, który pozostawia 0 korelacji między wymiarami N-podstawowymi. Na przykład okrąg punktów o początku lub kształcie fali, jak pokazano tutaj . PCA tego nie odbierze, ale inne metody to zrobią.
Patrzenie na takie metody jest szczególnie interesujące i wspólne dla wizualizacji i analizy danych eksploracyjnych. Aby korzystać z klasyfikatora lub innego modelu, musisz ograniczyć się do metod, które można dopasować do treningu i zastosować w teście, co wyklucza wiele z tych metod. Jeśli leży to w twoim głównym interesie, powinieneś również przyjrzeć się metodom bezobsługowego szkolenia wstępnego i (nadzorowanej) inżynierii funkcji.
źródło
Jeśli wszystkie N zmiennych są w przybliżeniu ortogonalne, wówczas redukcja wymiarów spowoduje względnie niewielkie zmniejszenie. Np. W
R
Zasadniczo „ortogonalny” oznacza „już w najmniejszym rozmiarze”.
źródło
x1<-rnorm(100, sd=0.1)
ipcsol <- princomp(df1, cor=FALSE)
jest różnica, szczególnie jeśli na to spojrzymysummary(pcsol)
. (Nie sugeruję, że cov jest lepszym podejściem niż cor, tylko że jest to możliwe.)