W jaki sposób najważniejsze główne komponenty mogą zachować moc predykcyjną zmiennej zależnej (a nawet prowadzić do lepszych prognoz)?

25

Załóżmy, że używam regresji . Dlaczego, wybierając najlepsze głównych składników , model zachowuje moc predykcyjną na ?YXkXY

Rozumiem, że z punktu widzenia redukcji wymiarów / wyboru cech, jeśli są wektorami własnymi macierzy kowariancji X z najwyższymi wartościami własnymi k , to Xv_1, Xv_2 ... Xv_k są pierwszymi k głównymi składnikami z maksymalnymi odchyleniami. W ten sposób możemy zmniejszyć liczbę funkcji do k i zachować większość mocy predykcyjnej, tak jak ją rozumiem.v1,v2,...vkXkXv1,Xv2...Xvkkk

Ale dlaczego najlepsze k komponentów zachowuje moc predykcyjną dla Y ?

Jeśli mówimy o ogólny ole YZ , nie ma powodu, aby zasugerować, że jeśli funkcja Zi ma maksymalnej wariancji, następnie Zi ma najbardziej predykcyjną zasilanie Y .

Zaktualizuj po zobaczeniu komentarzy: Wydaje mi się, że widziałem mnóstwo przykładów użycia PCA do redukcji wymiarowości. Zakładam, że oznacza to, że wymiary, które nam pozostały, mają najbardziej przewidywalną moc. W przeciwnym razie jaki jest sens redukcji wymiarowości?

Wendeta
źródło
3
Masz rację: nie ma powodu, aby przypuszczać, matematyczny top komputery z X mają żadnej mocy predykcyjnej - podobnie jak nie ma powodu, matematyczny generalnie przypuszczać, że każdy zestaw zmiennych towarzyszących X ma żadnego związku w ogóle danej Y . Wygląda na to, że masz na myśli jakieś stwierdzenie, które napotkałeś: co dokładnie mówi i kto to powiedział? KXXY
whuber
@ whuber Chyba mam mnóstwo przykładów zastosowania PCA do redukcji wymiarów. Zakładam, że oznacza to, że wymiary, które nam pozostały, mają najbardziej przewidywalne moce. W przeciwnym razie o to chodzi w zmniejszaniu wymiarów?
Vendetta

Odpowiedzi:

43

W rzeczywistości nie ma gwarancji, że główne główne komponenty (PC) mają większą moc predykcyjną niż te o niskiej wariancji.

Rzeczywiste przykłady można znaleźć tam, gdzie tak nie jest, i łatwo jest skonstruować sztuczny przykład, w którym np. Tylko najmniejszy komputer w ogóle ma związek z .y

Temat ten był często omawiany na naszym forum, a przy (niefortunnym) braku jednego wyraźnie kanonicznego wątku mogę podać tylko kilka linków, które razem dają różne prawdziwe życie, a także sztuczne przykłady:

I ten sam temat, ale w kontekście klasyfikacji:


Jednak w praktyce, najlepsze komputery często nie mają często więcej mocy predykcyjnej niż te o niskiej wariancji, a ponadto przy użyciu tylko najwyższej komputery mogą przynieść lepsze moc prognostyczną niż przy użyciu wszystkich komputerach.

W sytuacjach, w których występuje wiele predyktorów i względnie mało punktów danych n (np. Gdy p n lub nawet p > n ), regresja zwykła się dopasuje i należy ją uregulować. Regresję głównych składników (PCR) można postrzegać jako jeden ze sposobów uregulowania regresji i zwykle daje ona lepsze wyniki. Ponadto jest ściśle związany z regresją kalenicy, która jest standardowym sposobem regularyzacji skurczu. Podczas gdy regresja kalenicy jest zwykle lepszym pomysłem, PCR często zachowuje się dość dobrze. Zobacz Dlaczego działa skurcz? za ogólną dyskusję na temat kompromisu wariancji odchylenia i tego, w jaki sposób skurcz może być korzystny.pnpnp>n

W pewnym sensie można powiedzieć, że zarówno regresja grzbietu, jak i PCR zakładają, że większość informacji o jest zawarta w dużych komputerach X i takie założenie jest często uzasadnione.yX

Zobacz późniejszą odpowiedź @cbeleites (+1), aby uzyskać dyskusję na temat tego, dlaczego takie założenie jest często uzasadnione (a także ten nowszy wątek: Czy redukcja wymiarów jest prawie zawsze przydatna do klasyfikacji? W celu uzyskania dalszych komentarzy).

Hastie i in. w Elementach uczenia statystycznego (sekcja 3.4.1) komentuj to w kontekście regresji kalenicy:

[T] małe małe wartości [...] odpowiadają kierunkom w przestrzeni kolumny o małej wariancji, a regresja grzbietu najbardziej zmniejsza te kierunki. [...] Regresja kalenicy chroni przed potencjalnie wysoką zmiennością gradientów szacowanych w krótkich kierunkach. Domniemane założenie jest takie, że reakcja będzie się najbardziej różnić w kierunkach dużej zmienności danych wejściowych. Jest to często rozsądne założenie, ponieważ do badania często wybierane są predyktory, ponieważ różnią się one zależnie od zmiennej odpowiedzi, ale nie muszą się utrzymywać.X

Zobacz moje odpowiedzi w następujących wątkach, aby uzyskać szczegółowe informacje:


Dolna linia

W przypadku problemów wysokowymiarowych wstępne przetwarzanie za pomocą PCA (co oznacza zmniejszenie wymiarów i zachowanie tylko najlepszych komputerów PC) może być postrzegane jako jeden ze sposobów regularyzacji i często poprawi wyniki każdej późniejszej analizy, czy to regresji, czy metody klasyfikacji. Ale nie ma gwarancji, że to zadziała, i często istnieją lepsze metody regularyzacji.

ameba mówi Przywróć Monikę
źródło
Dziękujemy za zebranie referencji w odpowiedzi. Oto kolejny najnowszy. Odpowiedź zawiera dalsze linki.
ttnphns
Dzięki, @ttnphns! Nie widziałem tego postu, ponieważ nie miał tagu [pca] (ściśle śledzę tylko garść konkretnych tagów). Właściwie jestem raczej niezadowolony, że istnieje luźna kolekcja 5-10 ściśle powiązanych wątków, bez żadnych pytań i odpowiedzi nie jest naprawdę idealna i bez prawdziwych duplikatów między nimi. Wolałbym mieć jeden kanoniczny wątek, który mógłby zostać wykorzystany do przyszłych odniesień ...
amoeba mówi Przywróć Monikę
Dodałem tag do tego pytania. „Idealna” encyklopedyczna odpowiedź na ten interesujący temat czeka na autora. :-) Możesz zdecydować się zostać jednym.
ttnphns
Również istotne: odpowiedź onestop
kjetil b halvorsen
11

Oprócz odpowiedzi, które już koncentrują się na właściwościach matematycznych, chciałbym skomentować z eksperymentalnego punktu widzenia.

Podsumowanie: procesy generowania danych są często optymalizowane w taki sposób, aby dane były odpowiednie dla regresji głównego składnika (PCR) lub częściowej regresji metodą najmniejszych kwadratów (PLS).


Jestem chemikiem analitycznym. Projektując eksperyment / metodę pomiaru (regresji lub klasyfikacji) czegoś, wykorzystuję swoją wiedzę na temat aplikacji i dostępnych instrumentów, aby uzyskać dane, które przenoszą dobry stosunek sygnału do szumu w odniesieniu do danego zadania. Oznacza to, że generowane przeze mnie dane mają dużą kowariancję z właściwością będącą przedmiotem zainteresowania.
Prowadzi to do struktury wariancji, w której interesująca wariancja jest duża, a późniejsze komputery będą przenosić tylko (mały) hałas.

Wolę też metody, które dostarczają zbędnych informacji o wykonywanym zadaniu, aby uzyskać bardziej niezawodne lub bardziej precyzyjne wyniki. PCA koncentruje redundantne kanały pomiarowe w jednym komputerze, który następnie wykazuje dużą wariancję i dlatego jest jednym z pierwszych komputerów.

Jeśli znane są pomyłki, które doprowadzą do dużej wariancji, która nie jest skorelowana z właściwością będącą przedmiotem zainteresowania, zwykle postaram się je skorygować w jak największym stopniu podczas wstępnego przetwarzania danych: w wielu przypadkach pomyłki te są znane fizyczna lub chemiczna natura, a ta wiedza sugeruje odpowiednie sposoby korygowania zamieszania. Np. Mierzę widma Ramana pod mikroskopem. Ich intensywność zależy od natężenia światła laserowego, a także od tego, jak dobrze mogę ustawić ostrość mikroskopu. Oba prowadzą do zmian, które można skorygować przez normalizację, np. Do sygnału, o którym wiadomo, że jest stały.
Tak więc duże czynniki wariacyjne, które nie przyczyniają się do rozwiązania, mogły zostać wyeliminowane przed wprowadzeniem danych PCA, pozostawiając przede wszystkim znaczącą wariancję w pierwszych komputerach PC.


Last but not least, there's a bit of a self-fulfilling prophecy here: Obviously PCR is done with data where the assumption that the information carrying variance is large does make sense. If e.g. I think that there could be important confounders that I don't know how to correct for, I'd immediately go for PLS which is better at ignoring large contributions that do not help with the prediction task.

cbeleites supports Monica
źródło
+1. This is an excellent addition, thanks for joining the discussion.
amoeba says Reinstate Monica
@amoeba: thanks for the kind words. As always, also your answer is very thorough. I do in fact rely on you taking care of [pca]!
cbeleites supports Monica
6

PCA is sometimes used to correct problems caused by collinear variables so that most of the variation in the X space is captured by the K principal components.

But this mathematical problem is of course not the same as capturing most of variation both in X, Y space in such way that unexplained variation is as small as possible.

Partial least squares tries to do this in the latter sense:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

Analyst
źródło
3

As other has pointed out, there is no direct link between top k eigenvectors and the predictive power. By picking the top and using them as basis, you are retaining some top energy (or variance along those axis).

It can be that the axis explaining the most variance are actually useful for prediction but in general this is not the case.

Vladislavs Dovgalecs
źródło
When you say "in general", do you mean in general in practice or in general in theory?
amoeba says Reinstate Monica
@amoeba In general because it is easy to construct a dataset where projecting the data on top k maximum variance axis is not predictive/discriminative.
Vladislavs Dovgalecs
-1

Let me offer one simple explanation.

PCA amounts to removing certain features intuitively. This decreases chances of over-fitting.

denizen of the north
źródło