Podstawową ideą przy użyciu PCA jako narzędzia do wyboru cech jest wybór zmiennych zgodnie z wielkością (od największej do najmniejszej wartości bezwzględnej) ich współczynników ( ładunków ). Możesz sobie przypomnieć, że PCA dąży do zastąpienia zmiennych (mniej lub bardziej skorelowanych) przez nieskorelowanych kombinacji liniowych (rzutów) zmiennych pierwotnych. Zignorujmy, jak wybrać optymalną wartość dla danego problemu. Te głównych składników są uszeregowane według ważności według ich wyjaśnionej wariancji, a każda zmienna przyczynia się w różnym stopniu do każdego składnika. Zastosowanie kryteriów największej wariancji byłoby podobne do ekstrakcji funkcjik < p k k j < p j ppk < pkk , w których główny składnik są używane jako nowe funkcje zamiast oryginalnych zmiennych. Możemy jednak zdecydować, aby zachować tylko pierwszy składnik i wybrać zmienne , które mają najwyższy współczynnik bezwzględny; liczba może być oparta na proporcji liczby zmiennych (np. zachowaj tylko górne 10% zmiennych ) lub stałej wartości granicznej (np. biorąc pod uwagę próg znormalizowanych współczynników). To podejście jest trochę podobne do operatora Lasso w regresji karnej (lub regresji PLS ). Jednak ani wartość , ani liczba komponentów do zachowania nie są oczywistymi wyborami.j < pjotpjot
Problem z użyciem PCA polega na tym, że (1) pomiary ze wszystkich pierwotnych zmiennych są stosowane w rzutowaniu do przestrzeni o niższych wymiarach, (2) brane są pod uwagę tylko zależności liniowe oraz (3) metody oparte na PCA lub SVD, jak również jako metody przesiewowe jednowymiarowe (test t, korelacja itp.) nie biorą pod uwagę potencjalnej wielowymiarowej natury struktury danych (np. interakcji wyższego rzędu między zmiennymi).
W odniesieniu do punktu 1 zaproponowano kilka bardziej skomplikowanych metod przesiewowych, na przykład analizę głównych cech lub metodę etapową, taką jak ta stosowana do „ golenia genów ” w badaniach nad ekspresją genów. Również rzadkie PCA może być użyte do przeprowadzenia redukcji wymiarów i wyboru zmiennych na podstawie uzyskanych obciążeń zmiennych. Jeśli chodzi o punkt 2, można zastosować jądro PCA (używając sztuczki jądra ), jeśli trzeba osadzić relacje nieliniowe w przestrzeni o niższych wymiarach. Drzewa decyzyjne , a ściślej algorytm losowego lasu , są prawdopodobnie w stanie lepiej rozwiązać punkt 3. Ten ostatni pozwala uzyskać miary o różnym znaczeniu oparte na Gini lub permutacji .
Ostatni punkt: jeśli zamierzasz dokonać wyboru funkcji przed zastosowaniem modelu klasyfikacji lub regresji, pamiętaj o wzajemnym sprawdzeniu poprawności całego procesu (patrz §7.10.2 elementów uczenia statystycznego lub Ambroise i McLachlan, 2002 ).
Ponieważ wydaje się, że interesuje Cię rozwiązanie R, polecam przyjrzeć się pakietowi Caret , który zawiera wiele przydatnych funkcji do wstępnego przetwarzania danych i wyboru zmiennych w kontekście klasyfikacji lub regresji.
Biorąc pod uwagę zestaw N cech, analiza PCA da (1) liniową kombinację cech o największej wariancji (pierwszy komponent PCA), (2) kombinację liniową o największej wariancji w podprzestrzeni prostopadłej do pierwszego komponentu PCA itp. (pod warunkiem, że współczynniki kombinacji tworzą wektor z normą jednostkową) To, czy kombinacja liniowa z maksymalną wariancją jest „dobrą” cechą, naprawdę zależy od tego, co próbujesz przewidzieć. Z tego powodu powiedziałbym, że bycie komponentem PCA i bycie „dobrymi” cechami to (ogólnie) dwa niezwiązane ze sobą pojęcia.
źródło
Nie można zamówić funkcji według ich wariancji, ponieważ wariancja stosowana w PCA jest w zasadzie wielowymiarową jednostką. Możesz zamówić elementy tylko poprzez rzutowanie wariancji na określony kierunek (który zwykle jest pierwszym głównym komputonem). Innymi słowy, to, czy cecha ma większą wariancję niż inny, zależy od tego, jak wybierzesz kierunek projekcji.
źródło