Czy ICA wymaga najpierw uruchomienia PCA?

9

Przejrzałem artykuł oparty na aplikacji, mówiąc, że zastosowanie PCA przed zastosowaniem ICA (przy użyciu pakietu fastICA). Moje pytanie brzmi: czy ICA (fastICA) wymaga uruchomienia PCA w pierwszej kolejności?

W artykule wspomniano o tym

... argumentuje się również, że wstępne zastosowanie PCA poprawia wydajność ICA poprzez (1) odrzucenie małych końcowych wartości własnych przed wybielaniem i (2) zmniejszenie złożoności obliczeniowej przez zminimalizowanie zależności parami. PCA koreluje dane wejściowe; pozostałe zależności wyższego rzędu są oddzielone przez ICA.

Również inne dokumenty stosują PCA przed ICA, np. Ten .

Czy są jakieś inne zalety i wady, aby uruchomić PCA przed ICA? Proszę podać teorię z odniesieniami.

Samo Jerom
źródło
W opublikowanej pracy stwierdzono niekorzystne skutki redukcji wymiarów opartej na PCA do ICA.
bonobo

Odpowiedzi:

9

Podejście fastICA wymaga etapu wstępnego wybielania: dane są najpierw przekształcane za pomocą PCA, co prowadzi do diagonalnej macierzy kowariancji, a następnie każdy wymiar jest znormalizowany, tak że macierz kowariancji jest równa macierzy tożsamości (wybielaniu).

Istnieją nieskończone transformacje danych, które skutkują macierzą kowariancji tożsamości, a gdyby twoje źródła były gaussowskie, zatrzymałbyś się tam (dla Gaussowskich rozkładów wielowymiarowych średnia i kowariancja są wystarczającymi statystykami), w obecności źródeł niegaussowskich możesz zminimalizować niektóre miara zależności od bielonych danych, dlatego szukasz rotacji bielonych danych, która maksymalizuje niezależność. FastICA osiąga to za pomocą teoretycznych miar informacji i schematu iteracji w punkcie stałym.

Poleciłbym pracę Hyvärinen, aby lepiej zrozumieć problem:

  • A. Hyvärinen. Szybkie i niezawodne algorytmy stałoprzecinkowe do niezależnej analizy komponentów. Transakcje IEEE w sieciach neuronowych 10 (3): 626-634, 1999.
  • A. Hyvärinen, J. Karhunen, E. Oja, Independent Component Analysis, Wiley & Sons. 2001

Należy pamiętać, że wykonywanie PCA i redukcja wymiarów nie są dokładnie tym samym: gdy masz więcej obserwacji (na sygnał) niż sygnałów, możesz wykonać PCA zachowując 100% wyjaśnionej wariancji, a następnie kontynuować wybielanie i iterację punktu stałego aby uzyskać oszacowanie niezależnych składników. To, czy należy wykonać redukcję wymiarów, zależy od kontekstu i jest oparte na założeniach modelowania i dystrybucji danych.

Giancarlo
źródło
2
To dobra odpowiedź, ale o ile wiem, twój ostatni punkt można wzmocnić: prawie zawsze dobrym pomysłem jest użycie kroku PCA w celu zmniejszenia wymiarów (oprócz wybielania danych). W rzeczywistości, jeśli wymiarowość jest zbyt wysoka, wówczas ICA może łatwo przeregulować się i wytworzyć pozbawione znaczenia komponenty. Przetwarzanie wstępne za pomocą PCA często rozwiązuje ten problem (jak argumentowano w cytacie w PO).
ameba
4

Zastosowanie PCA do danych ma jedyny efekt obrócenia oryginalnych osi współrzędnych. Jest to transformacja liniowa, dokładnie tak jak na przykład transformata Fouriera. Dlatego jako taki naprawdę nie może nic zrobić z twoimi danymi.

Jednak dane reprezentowane w nowej przestrzeni PCA mają kilka interesujących właściwości. Po obrocie współrzędnych za pomocą PCA możesz odrzucić niektóre wymiary na podstawie ustalonych kryteriów, takich jak procent całkowitej wariancji wyjaśniony przez nowe osie. W zależności od sygnału można uzyskać znaczną redukcję wymiarów za pomocą tej metody, co zdecydowanie zwiększy wydajność następnego ICA. Wykonanie ICA bez odrzucania któregokolwiek ze składników PCA nie będzie miało wpływu na wynik następującego ICA.

Ponadto można łatwo wybielić dane w przestrzeni PCA ze względu na ortogonalność osi współrzędnych. Wybielanie powoduje wyrównanie wariancji we wszystkich wymiarach. Twierdziłbym, że jest to konieczne do prawidłowego działania ICA. W przeciwnym razie tylko nieliczne komponenty PCA o największych odchyleniach zdominowałyby wyniki ICA.

Naprawdę nie widzę żadnych wad przetwarzania wstępnego opartego na PCA przed ICA.

Giancarlo cytuje już najlepszą referencję dla ICA ...

bonobo
źródło
Cała odpowiedź opiera się na założeniu, że zastosowanie PCA polega po prostu na obróceniu osi współrzędnych, ale w rzeczywistości przez „zastosowanie PCA” ludzie zwykle oznaczają zmniejszenie wymiarów (tj. Utrzymywanie tylko podzbioru komputerów PC i odrzucanie reszty).
ameba
PCA pomaga dowiedzieć się, które wymiary odrzucić, jeśli chcesz. Nie rozumiem, jak to dopracowuje moją odpowiedź.
bonobo
Tymczasem prace te zostały opublikowane, twierdzą, że wykazują one niekorzystny wpływ redukcji wymiarów na podstawie PCA na jakość późniejszych ICA.
bonobo
Dzięki za link. Czytam streszczenie i szczerze mówiąc jestem sceptyczny. Ale nie jestem ekspertem od ICA i prawdopodobnie nie zamierzam szczegółowo studiować tego dokumentu.
ameba
2

Wyprowadzenie algorytmu fastICA wymaga wybielenia tylko dla jednego kroku. Najpierw wybierasz kierunek kroku (np. Opadanie gradientu), a to nie wymaga wybielonych danych. Następnie musimy wybrać rozmiar kroku, który zależy od odwrotności Hesji. Jeśli dane zostaną wybielone, ten Hesjan jest przekątny i odwracalny.

Czy to jest wymagane? Jeśli po prostu ustawiłeś rozmiar kroku na stałą (a zatem nie wymagającą wybielania), miałbyś standardowe opadanie gradientu. Zejście gradientowe ze stałym małym rozmiarem stopnia zwykle będzie zbieżne, ale być może znacznie wolniejsze niż w oryginalnej metodzie. Z drugiej strony, jeśli masz dużą macierz danych, wybielanie może być dość kosztowne. Lepiej może być nawet przy mniejszej zbieżności bez wybielania.

Byłem zaskoczony, że nie wspomniałem o tym w żadnej literaturze. Jedna praca omawia problem: Nowe algorytmy Fast-ICA dla ślepej separacji źródeł bez wcześniejszego wybielania autorstwa Jimin Ye i Ting Huang.

Sugerują nieco tańszą opcję wybielania. Szkoda, że ​​nie uwzględnili oczywistego porównania po prostu uruchamiania ICA bez wybielania, ale tego nie zrobili. Jako kolejny punkt danych próbowałem uruchomić FastICA bez wybielania problemów z zabawkami i działało dobrze.

Aktualizacja: jest jeszcze jedno miłe odniesienie do wybielania odniesienia : solidna niezależna analiza składników, Zaroso i Comon . Zapewniają algorytmy, które nie wymagają wybielania.

Greg Ver Steeg
źródło