Przykłady PCA, w których komputery o niskiej wariancji są „przydatne”

24

Zwykle w analizie głównych składników (PCA) używa się pierwszych kilku komputerów PC, a komputery o niskiej wariancji są odrzucane, ponieważ nie wyjaśniają one dużej zmienności danych.

Czy istnieją jednak przykłady, w których komputery PC o niskiej zmienności są przydatne (tj. Mają zastosowanie w kontekście danych, mają intuicyjne wyjaśnienie itp.) I nie powinny być wyrzucane?

Michał
źródło
5
Całkiem sporo. Zobacz PCA, losowość składnika? Może to być nawet duplikat, ale twój tytuł jest znacznie wyraźniejszy (stąd prawdopodobnie łatwiejszy do znalezienia przez wyszukiwanie), więc nie usuwaj go, nawet jeśli zostanie zamknięty.
Nick Stauner

Odpowiedzi:

18

Oto fajny fragment z Jolliffe (1982) , którego nie uwzględniłem w mojej poprzedniej odpowiedzi na bardzo podobne pytanie: „ Komponenty o niskiej wariancji w PCA, czy to naprawdę tylko hałas? Czy jest jakiś sposób, aby to przetestować? ”. to dość intuicyjne.

Załóżmy, że wymagane jest przewidzenie wysokości podstawy chmur , ważnego problemu na lotniskach. Różne zmienne klimatyczne są mierzone w tym temperatury powierzchniowej T y i rosy powierzchniową T d . Tutaj T d oznacza temperaturę, w której powietrze powierzchnia byłaby nasycona para wodna, przy czym różnica T y - T d jest miarą wilgoci powierzchniowej. Teraz T s , T d są ogólnie dodatnio skorelowany, więc głównym składnikiem Analiza zmiennych klimatycznych będzie miał składową wysokiej wariancji, który jest silnie skorelowany z TH.T.sT.reT.reT.s-T.reT.s,T.re oraz składnik o niskiej wariancji, który jest podobnie skorelowany z T s - T d . A H jest związany z wilgocią, a co za tym idzie , T y - T d , to znaczy o niskiej zmienności niż komponent o dużej wariancji tak strategii, która odrzuca części niskiej wariancji daje słabe prognozowany H .T.s+T.reT.s-T.reH.T.s-T.reH.
Omówienie tego przykładu jest z konieczności niejasne ze względu na nieznane skutki innych zmiennych klimatycznych, które również są mierzone i uwzględniane w analizie. Pokazuje to jednak fizycznie możliwy przypadek, w którym zmienna zależna będzie powiązana ze składnikiem o niskiej wariancji, potwierdzając trzy przykłady empiryczne z literatury.
Ponadto przykład chmur obliczono na danych z lotniska w Cardiff (Walia) za okres 1966–73 z uwzględnieniem jednej dodatkowej zmiennej klimatycznej, temperatury powierzchni morza. Wyniki były zasadniczo zgodne z przewidywaniami powyżej. Ostatnim zasadniczym składnikiem był w przybliżeniu i stanowiły tylko 0 · 4 procent całkowitej zmienności. Jednak w regresji głównego składnika było łatwo najważniejszym czynnikiem dla H . [Podkreślenie dodane]T.s-T.reH.

Trzy przykłady z literatury, o których mowa w ostatnim zdaniu drugiego akapitu, to trzy, o których wspomniałem w mojej odpowiedzi na powiązane pytanie .


Odniesienie
Jolliffe, IT (1982). Uwaga na temat stosowania głównych składników w regresji. Applied Statistics, 31 (3), 300–303. Źródło: http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

Nick Stauner
źródło
V.(ZA+b)=V.(ZA)+V.(b)+2)doov(ZA,b)V(AB)=V(A)+V(B)2Cov(A,B)TsTre
+1, to dobry przykład. Co ciekawe, jest to także przykład tłumienia.
Gung - Przywróć Monikę
17

Jeśli masz R, istnieje dobry przykład w crabsdanych w pakiecie MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Ponad 98% wariancji jest „wyjaśnione” przez pierwsze dwa komputery, ale tak naprawdę, jeśli rzeczywiście zebrałeś te pomiary i studiowałeś je, trzeci komputer jest bardzo interesujący, ponieważ jest ściśle związany z gatunkiem kraba. Ale jest zalany przez PC1 (który wydaje się odpowiadać wielkości kraba) i PC2 (który wydaje się odpowiadać płci kraba).

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Flądrarz
źródło
2
+1, to naprawdę fajna demonstracja. Zrobiłem 2 macierze rozrzutu, które można dodać, jeśli chcesz.
gung - Przywróć Monikę
1
@gung: Dziękujemy za dodanie wykresów rozrzutu! Wcześniej głosowałem tę odpowiedź, ale nie doceniłem jej w pełni, nie widząc fabuły. Scatterplot PC2 vs PC3 jest naprawdę fajny: prawie idealnie oddziela płcie i gatunki. Podoba mi się ten przykład, ponieważ ilustruje to, co się dzieje, gdy wszystkie zmienne są silnie skorelowane dodatnio (tj. PC1 wyjaśnia dużą wariancję i jest w zasadzie średnią).
ameba mówi Przywróć Monikę
1
Dzięki, @amoeba. Naprawdę podoba mi się sposób, w jaki się okazali. Spędziłem dużo czasu na wróżeniu z nimi (kolory, pch, lable, legenda). Wydaje mi się, że teraz są całkiem ładne. Masz rację na temat PC1. Widzimy również, że istnieje (prawdopodobnie) stały współczynnik zmienności i interakcja między płcią i / lub gatunkiem w wielu związkach: małe (młode?) Kraby mają zwykle takie same wartości bez względu na płeć lub gatunek, ale jako rosną (wiek?) stają się bardziej wyraźne. Itd. Jest wiele fajnych rzeczy do zobaczenia - możesz po prostu na nie patrzeć.
gung - Przywróć Monikę
8

Oto dwa przykłady z mojego doświadczenia (chemometria, spektroskopia optyczna / wibracyjna / ramanowska):

  • Niedawno miałem dane ze spektroskopii optycznej, w których> 99% całkowitej wariancji surowych danych było spowodowane zmianami światła tła (światło punktowe mniej lub bardziej intensywne w mierzonym punkcie, lampy fluorescencyjne włączone / wyłączone, więcej lub mniej chmur przed słońce). Po korekcji tła za pomocą widm optycznych znanych czynników wpływających (wyodrębnionych przez PCA na surowych danych; dodatkowe pomiary wykonane w celu uwzględnienia tych zmian), efekt, który nas interesował, pojawił się na PC 4 i 5.
    PC 1 i 3 z powodu innych efektów w mierzonej próbce, a PC 2 koreluje z nagrzewaniem końcówki instrumentu podczas pomiarów.

  • W innym pomiarze zastosowano soczewkę bez korekcji koloru dla zmierzonego zakresu widma. Aberracja chromatyczna prowadzi do zniekształceń widm, które stanowiły ok. 90% całkowitej wariancji wstępnie przetworzonych danych (zarejestrowanych głównie na PC 1).
    W przypadku tych danych zajęło nam sporo czasu, aby zrozumieć, co dokładnie się wydarzyło, ale przejście na lepszy cel rozwiązało problem w późniejszych eksperymentach.

(Nie mogę pokazać szczegółów, ponieważ te badania są nadal niepublikowane)

cbeleites obsługuje Monikę
źródło
3

Zauważyłem, że komputery PC o niskiej wariancji są najbardziej pomocne podczas wykonywania PCA na macierzy kowariancji, w której dane bazowe są w jakiś sposób grupowane lub grupowane. Jeśli jedna z grup ma znacznie niższą średnią wariancję niż inne grupy, wówczas najmniejsze komputery byłyby zdominowane przez tę grupę. Jednak możesz mieć jakiś powód, aby nie chcieć wyrzucać wyników z tej grupy.

W finansach zwroty akcji mają roczne odchylenie standardowe o około 15-25%. Zmiany rentowności obligacji są historycznie znacznie niższe odchylenie standardowe. Jeśli wykonasz PCA na macierzy kowariancji zwrotów akcji i zmian rentowności obligacji, najlepsze komputery będą odzwierciedlały wariancję akcji, a najmniejsze będą odzwierciedlać wariancje obligacji. Jeśli wyrzucisz komputery, które wyjaśniają więzi, możesz mieć kłopoty. Na przykład obligacje mogą mieć bardzo różne cechy dystrybucyjne niż zapasy (cieńsze ogony, różne zmienne w czasie właściwości wariancji, różne średnie odwrócenie, kointegracja itp.). Mogą być one bardzo ważne do modelowania, w zależności od okoliczności.

Jeśli wykonasz PCA na macierzy korelacji, możesz zobaczyć więcej komputerów wyjaśniających wiązania u góry.

Jan
źródło
Ta odpowiedź jest bardzo trudna do zrozumienia, jeśli nie wiadomo, czym są akcje, obligacje, dochody i zwroty. Nie rozumiem, więc nie widzę związku między twoim pierwszym zdaniem a drugim ...
ameba mówi Przywróć Monikę
1
Wprowadziłem kilka zmian.
Jan
1

W tym wykładzie ( slajdy ) prezenterzy omawiają wykorzystanie PCA do rozróżnienia między cechami wysokiej zmienności i cechami niskiej zmienności.

W rzeczywistości wolą cechy niskiej zmienności do wykrywania anomalii, ponieważ znacząca zmiana wymiaru małej zmienności jest silnym wskaźnikiem zachowania anomalnego. Motywujący podany przez nich przykład jest następujący:

Załóżmy, że użytkownik zawsze loguje się z komputera Mac. Wymiar ich działalności w „systemie operacyjnym” byłby bardzo niewielki. Ale gdybyśmy zobaczyli zdarzenie logowania od tego samego użytkownika, w którym „systemem operacyjnym” był Windows, byłoby to bardzo interesujące i coś, co chcielibyśmy złapać.

turtlemonvh
źródło