Przejrzałem artykuł oparty na aplikacji, mówiąc, że zastosowanie PCA przed zastosowaniem ICA (przy użyciu pakietu fastICA). Moje pytanie brzmi: czy ICA (fastICA) wymaga uruchomienia PCA w pierwszej kolejności?
W artykule wspomniano o tym
... argumentuje się również, że wstępne zastosowanie PCA poprawia wydajność ICA poprzez (1) odrzucenie małych końcowych wartości własnych przed wybielaniem i (2) zmniejszenie złożoności obliczeniowej przez zminimalizowanie zależności parami. PCA koreluje dane wejściowe; pozostałe zależności wyższego rzędu są oddzielone przez ICA.
Również inne dokumenty stosują PCA przed ICA, np. Ten .
Czy są jakieś inne zalety i wady, aby uruchomić PCA przed ICA? Proszę podać teorię z odniesieniami.
pca
dimensionality-reduction
pattern-recognition
ica
Samo Jerom
źródło
źródło
Odpowiedzi:
Podejście fastICA wymaga etapu wstępnego wybielania: dane są najpierw przekształcane za pomocą PCA, co prowadzi do diagonalnej macierzy kowariancji, a następnie każdy wymiar jest znormalizowany, tak że macierz kowariancji jest równa macierzy tożsamości (wybielaniu).
Istnieją nieskończone transformacje danych, które skutkują macierzą kowariancji tożsamości, a gdyby twoje źródła były gaussowskie, zatrzymałbyś się tam (dla Gaussowskich rozkładów wielowymiarowych średnia i kowariancja są wystarczającymi statystykami), w obecności źródeł niegaussowskich możesz zminimalizować niektóre miara zależności od bielonych danych, dlatego szukasz rotacji bielonych danych, która maksymalizuje niezależność. FastICA osiąga to za pomocą teoretycznych miar informacji i schematu iteracji w punkcie stałym.
Poleciłbym pracę Hyvärinen, aby lepiej zrozumieć problem:
Należy pamiętać, że wykonywanie PCA i redukcja wymiarów nie są dokładnie tym samym: gdy masz więcej obserwacji (na sygnał) niż sygnałów, możesz wykonać PCA zachowując 100% wyjaśnionej wariancji, a następnie kontynuować wybielanie i iterację punktu stałego aby uzyskać oszacowanie niezależnych składników. To, czy należy wykonać redukcję wymiarów, zależy od kontekstu i jest oparte na założeniach modelowania i dystrybucji danych.
źródło
Zastosowanie PCA do danych ma jedyny efekt obrócenia oryginalnych osi współrzędnych. Jest to transformacja liniowa, dokładnie tak jak na przykład transformata Fouriera. Dlatego jako taki naprawdę nie może nic zrobić z twoimi danymi.
Jednak dane reprezentowane w nowej przestrzeni PCA mają kilka interesujących właściwości. Po obrocie współrzędnych za pomocą PCA możesz odrzucić niektóre wymiary na podstawie ustalonych kryteriów, takich jak procent całkowitej wariancji wyjaśniony przez nowe osie. W zależności od sygnału można uzyskać znaczną redukcję wymiarów za pomocą tej metody, co zdecydowanie zwiększy wydajność następnego ICA. Wykonanie ICA bez odrzucania któregokolwiek ze składników PCA nie będzie miało wpływu na wynik następującego ICA.
Ponadto można łatwo wybielić dane w przestrzeni PCA ze względu na ortogonalność osi współrzędnych. Wybielanie powoduje wyrównanie wariancji we wszystkich wymiarach. Twierdziłbym, że jest to konieczne do prawidłowego działania ICA. W przeciwnym razie tylko nieliczne komponenty PCA o największych odchyleniach zdominowałyby wyniki ICA.
Naprawdę nie widzę żadnych wad przetwarzania wstępnego opartego na PCA przed ICA.
Giancarlo cytuje już najlepszą referencję dla ICA ...
źródło
Wyprowadzenie algorytmu fastICA wymaga wybielenia tylko dla jednego kroku. Najpierw wybierasz kierunek kroku (np. Opadanie gradientu), a to nie wymaga wybielonych danych. Następnie musimy wybrać rozmiar kroku, który zależy od odwrotności Hesji. Jeśli dane zostaną wybielone, ten Hesjan jest przekątny i odwracalny.
Czy to jest wymagane? Jeśli po prostu ustawiłeś rozmiar kroku na stałą (a zatem nie wymagającą wybielania), miałbyś standardowe opadanie gradientu. Zejście gradientowe ze stałym małym rozmiarem stopnia zwykle będzie zbieżne, ale być może znacznie wolniejsze niż w oryginalnej metodzie. Z drugiej strony, jeśli masz dużą macierz danych, wybielanie może być dość kosztowne. Lepiej może być nawet przy mniejszej zbieżności bez wybielania.
Byłem zaskoczony, że nie wspomniałem o tym w żadnej literaturze. Jedna praca omawia problem: Nowe algorytmy Fast-ICA dla ślepej separacji źródeł bez wcześniejszego wybielania autorstwa Jimin Ye i Ting Huang.
Sugerują nieco tańszą opcję wybielania. Szkoda, że nie uwzględnili oczywistego porównania po prostu uruchamiania ICA bez wybielania, ale tego nie zrobili. Jako kolejny punkt danych próbowałem uruchomić FastICA bez wybielania problemów z zabawkami i działało dobrze.
Aktualizacja: jest jeszcze jedno miłe odniesienie do wybielania odniesienia : solidna niezależna analiza składników, Zaroso i Comon . Zapewniają algorytmy, które nie wymagają wybielania.
źródło