Zwykle w analizie głównych składników (PCA) używa się pierwszych kilku komputerów PC, a komputery o niskiej wariancji są odrzucane, ponieważ nie wyjaśniają one dużej zmienności danych.
Czy istnieją jednak przykłady, w których komputery PC o niskiej zmienności są przydatne (tj. Mają zastosowanie w kontekście danych, mają intuicyjne wyjaśnienie itp.) I nie powinny być wyrzucane?
Odpowiedzi:
Oto fajny fragment z Jolliffe (1982) , którego nie uwzględniłem w mojej poprzedniej odpowiedzi na bardzo podobne pytanie: „ Komponenty o niskiej wariancji w PCA, czy to naprawdę tylko hałas? Czy jest jakiś sposób, aby to przetestować? ”. to dość intuicyjne.
Trzy przykłady z literatury, o których mowa w ostatnim zdaniu drugiego akapitu, to trzy, o których wspomniałem w mojej odpowiedzi na powiązane pytanie .
Odniesienie
Jolliffe, IT (1982). Uwaga na temat stosowania głównych składników w regresji. Applied Statistics, 31 (3), 300–303. Źródło: http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
źródło
Jeśli masz R, istnieje dobry przykład w
crabs
danych w pakiecie MASS.Ponad 98% wariancji jest „wyjaśnione” przez pierwsze dwa komputery, ale tak naprawdę, jeśli rzeczywiście zebrałeś te pomiary i studiowałeś je, trzeci komputer jest bardzo interesujący, ponieważ jest ściśle związany z gatunkiem kraba. Ale jest zalany przez PC1 (który wydaje się odpowiadać wielkości kraba) i PC2 (który wydaje się odpowiadać płci kraba).
źródło
Oto dwa przykłady z mojego doświadczenia (chemometria, spektroskopia optyczna / wibracyjna / ramanowska):
Niedawno miałem dane ze spektroskopii optycznej, w których> 99% całkowitej wariancji surowych danych było spowodowane zmianami światła tła (światło punktowe mniej lub bardziej intensywne w mierzonym punkcie, lampy fluorescencyjne włączone / wyłączone, więcej lub mniej chmur przed słońce). Po korekcji tła za pomocą widm optycznych znanych czynników wpływających (wyodrębnionych przez PCA na surowych danych; dodatkowe pomiary wykonane w celu uwzględnienia tych zmian), efekt, który nas interesował, pojawił się na PC 4 i 5.
PC 1 i 3 z powodu innych efektów w mierzonej próbce, a PC 2 koreluje z nagrzewaniem końcówki instrumentu podczas pomiarów.
W innym pomiarze zastosowano soczewkę bez korekcji koloru dla zmierzonego zakresu widma. Aberracja chromatyczna prowadzi do zniekształceń widm, które stanowiły ok. 90% całkowitej wariancji wstępnie przetworzonych danych (zarejestrowanych głównie na PC 1).
W przypadku tych danych zajęło nam sporo czasu, aby zrozumieć, co dokładnie się wydarzyło, ale przejście na lepszy cel rozwiązało problem w późniejszych eksperymentach.
(Nie mogę pokazać szczegółów, ponieważ te badania są nadal niepublikowane)
źródło
Zauważyłem, że komputery PC o niskiej wariancji są najbardziej pomocne podczas wykonywania PCA na macierzy kowariancji, w której dane bazowe są w jakiś sposób grupowane lub grupowane. Jeśli jedna z grup ma znacznie niższą średnią wariancję niż inne grupy, wówczas najmniejsze komputery byłyby zdominowane przez tę grupę. Jednak możesz mieć jakiś powód, aby nie chcieć wyrzucać wyników z tej grupy.
W finansach zwroty akcji mają roczne odchylenie standardowe o około 15-25%. Zmiany rentowności obligacji są historycznie znacznie niższe odchylenie standardowe. Jeśli wykonasz PCA na macierzy kowariancji zwrotów akcji i zmian rentowności obligacji, najlepsze komputery będą odzwierciedlały wariancję akcji, a najmniejsze będą odzwierciedlać wariancje obligacji. Jeśli wyrzucisz komputery, które wyjaśniają więzi, możesz mieć kłopoty. Na przykład obligacje mogą mieć bardzo różne cechy dystrybucyjne niż zapasy (cieńsze ogony, różne zmienne w czasie właściwości wariancji, różne średnie odwrócenie, kointegracja itp.). Mogą być one bardzo ważne do modelowania, w zależności od okoliczności.
Jeśli wykonasz PCA na macierzy korelacji, możesz zobaczyć więcej komputerów wyjaśniających wiązania u góry.
źródło
W tym wykładzie ( slajdy ) prezenterzy omawiają wykorzystanie PCA do rozróżnienia między cechami wysokiej zmienności i cechami niskiej zmienności.
W rzeczywistości wolą cechy niskiej zmienności do wykrywania anomalii, ponieważ znacząca zmiana wymiaru małej zmienności jest silnym wskaźnikiem zachowania anomalnego. Motywujący podany przez nich przykład jest następujący:
źródło