PCA o korelacji lub kowariancji: czy PCA o korelacji ma kiedykolwiek sens? [Zamknięte]

32

W analizie głównych składników (PCA) można wybrać macierz kowariancji lub macierz korelacji, aby znaleźć składniki (z ich odpowiednich wektorów własnych). Dają one różne wyniki (obciążenia komputera i wyniki), ponieważ wektory własne między oboma macierzami nie są równe. Rozumiem, że jest to spowodowane faktem, że surowego wektora danych i jego standaryzacji nie można powiązać poprzez transformację ortogonalną. Matematycznie podobne macierze (tj. Powiązane przez transformację ortogonalną) mają te same wartości własne, ale niekoniecznie te same wektory własne.ZXZ

Rodzi to pewne trudności:

  1. Czy PCA faktycznie ma sens, jeśli można uzyskać dwie różne odpowiedzi dla tego samego początkowego zestawu danych, obie próbują osiągnąć to samo (= znaleźć kierunki maksymalnej wariancji)?

  2. Podczas korzystania z macierzy korelacji każda zmienna jest standaryzowana (skalowana) według własnego indywidualnego odchylenia standardowego przed obliczeniem komputerów PC. Jak zatem ma sens znalezienie kierunków maksymalnej wariancji, jeśli dane zostały wcześniej wcześniej skalowane / skompresowane w inny sposób? Wiem, że ta PCA oparta na korelacji jest bardzo wygodna (znormalizowane zmienne są bezwymiarowe, więc można dodawać ich kombinacje liniowe; inne zalety również oparte są na pragmatyzmie), ale czy to prawda?

Wydaje mi się, że PCA oparty na kowariancji jest jedyną naprawdę poprawną (nawet gdy wariancje zmiennych znacznie się różnią) i że ilekroć nie można użyć tej wersji, PCA również nie powinno być używane.

Wiem, że jest ten wątek: PCA o korelacji lub kowariancji? - ale wydaje się, że koncentruje się tylko na znalezieniu pragmatycznego rozwiązania, które może, ale nie musi być algebraicznie poprawne.

Lucozade
źródło
4
Będę szczery i powiem ci, że w pewnym momencie przestałem czytać twoje pytanie. PCA ma sens. Tak, wyniki mogą się różnić w zależności od tego, czy wybierzesz macierz korelacji, czy wariancji / kowariancji. PCA oparte na korelacji jest preferowane, jeśli twoje zmienne są mierzone w różnych skalach, ale nie chcesz, aby to zdominowało wynik. Wyobraź sobie, że jeśli masz szereg zmiennych w zakresie od 0 do 1, a następnie niektóre, które mają bardzo duże wartości (mówiąc względnie, np. 0 do 1000), dominuje duża wariancja związana z drugą grupą zmiennych.
Patrick
4
Dotyczy to również wielu innych technik i myślę, że punkt Patricka jest rozsądny. To był tylko komentarz, bez potrzeby stać się agresywnym. Mówiąc ogólnie, dlaczego miałbyś zakładać, że powinien istnieć jeden prawdziwy „algebraicznie” poprawny sposób podejścia do problemu?
Gala
5
Być może myślisz o PCA w niewłaściwy sposób: to tylko transformacja, więc nie ma wątpliwości, czy jest ona poprawna lub niepoprawna, czy też polegasz na założeniach dotyczących modelu danych - w przeciwieństwie do, powiedzmy, regresji lub analizy czynnikowej.
Scortchi - Przywróć Monikę
5
Sedno tej sprawy wydaje się opierać na niezrozumieniu tego, co robi normalizacja i jak działa PCA. Jest to zrozumiałe, ponieważ dobre zrozumienie PCA wymaga wizualizacji kształtów o wyższych wymiarach. Utrzymałbym, że to pytanie, podobnie jak wiele innych pytań opartych na pewnym nieporozumieniu, jest zatem dobre i powinno pozostać otwarte, ponieważ jego odpowiedzi mogą ujawnić prawdy, których wielu ludzi nie doceniało w pełni wcześniej.
whuber
6
PCA niczego nie „rości”. Ludzie twierdzą o PCA i faktycznie używają go bardzo różnie, w zależności od dziedziny. Niektóre z tych zastosowań mogą być głupie lub wątpliwe, ale założenie, że jeden wariant techniki musi być „poprawny algebraicznie” bez odniesienia do kontekstu lub celu analizy, nie wydaje się zbyt pouczające.
Gala

Odpowiedzi:

29

Mam nadzieję, że te odpowiedzi na twoje dwa pytania uspokoją twoją obawę:

  1. Macierz korelacji jest macierzą kowariancji znormalizowanych (tj. Nie tylko wyśrodkowanych, ale także przeskalowanych) danych; to znaczy macierz kowariancji (jakby jakby) innego , innego zestawu danych. Jest to więc naturalne i nie powinno ci przeszkadzać, że wyniki różnią się.
  2. Tak, sensowne jest znalezienie kierunków maksymalnej wariancji ze znormalizowanymi danymi - są to kierunki - że tak powiem - „korelacji”, a nie „kowariancji”; to znaczy po usunięciu wpływu nierównych wariancji - pierwotnych zmiennych - na kształt wielowymiarowej chmury danych.

Następny tekst i zdjęcia dodane przez @whuber (dziękuję mu. Zobacz także mój komentarz poniżej)

Oto dwuwymiarowy przykład pokazujący, dlaczego nadal warto lokalizować główne osie znormalizowanych danych (pokazane po prawej stronie). Zauważ, że na wykresie po prawej chmura nadal ma „kształt”, mimo że wariancje wzdłuż osi współrzędnych są teraz dokładnie równe (do 1,0). Podobnie w wyższych wymiarach znormalizowana chmura punktów będzie miała kształt niesferyczny, mimo że wariancje wzdłuż wszystkich osi są dokładnie równe (do 1,0). Główne osie (wraz z odpowiadającymi im wartościami własnymi) opisują ten kształt. Innym sposobem na zrozumienie tego jest zwrócenie uwagi, że całe przeskalowanie i przesunięcie, które ma miejsce podczas standaryzacji zmiennych, odbywa się tylko w kierunkach osi współrzędnych, a nie w głównych kierunkach.

Postać

To, co się tutaj dzieje, jest geometrycznie tak intuicyjne i jasne, że trudno byłoby scharakteryzować to jako „operację czarnej skrzynki”: wręcz przeciwnie, standaryzacja i PCA to jedne z najbardziej podstawowych i rutynowych rzeczy, które robimy z danymi w celu aby je zrozumieć.


Kontynuacja @ttnphns

Kiedy wolałbyś przeprowadzić PCA (lub analizę czynnikową lub inną podobną analizę) na korelacjach (tj. Na zmiennych standaryzowanych na Z) zamiast robić to na kowariancjach (tj. Na zmiennych wyśrodkowanych)?

  1. Gdy zmienne są różnymi jednostkami miary. To jasne.
  2. Gdy chce się, aby analiza odzwierciedlała tylko i wyłącznie powiązania liniowe . Pearsona r to nie tylko kowariancja między nieskalowanymi zmiennymi (wariancja = 1); nagle staje się miarą siły zależności liniowej, podczas gdy zwykły współczynnik kowariancji jest wrażliwy zarówno na stosunek liniowy, jak i monotoniczny.
  3. Gdy chce się, aby skojarzenia odzwierciedlały względną współ dewiację (od średniej), a nie surową współ dewiację. Korelacja opiera się na rozkładach, ich spreadach, a kowariancja opiera się na oryginalnej skali pomiarowej. Gdybym miał przeanalizować profile psychopatologiczne pacjentów według oceny psychiatrów na jakimś kwestionariuszu klinicznym składającym się z przedmiotów typu Likerta, wolałbym kowariancje. Ponieważ od specjalistów nie oczekuje się intrapsychicznego zniekształcania skali ocen. Z drugiej strony, gdybym analizował autoportrety pacjentów za pomocą tego samego kwestionariusza, prawdopodobnie wybrałbym korelacje. Ponieważ oczekuje się, że ocena laika będzie względna „inni ludzie”, „większość” „dopuszczalne odchylenie” lupa, która „kurczy się” lub „rozciąga” skalę oceny dla jednego.
ttnphns
źródło
1
1. Przepraszam, ale to bardzo przeszkadza. Dla osoby zewnętrznej standaryzacja jest operacją czarnej skrzynki, stanowiącą część wstępnego warunkowania danych PCA (również w ICA). Chce jednej odpowiedzi na swoje (surowe) dane wejściowe, szczególnie jeśli dotyczy to danych fizycznych (wymiarowych), dla których dane wyjściowe PCA należy interpretować również fizycznie (tj. W kategoriach zmiennych niestandardowych).
Lucozade
1
Twoja najnowsza wersja wydaje się być ponownym stwierdzeniem, że „PCA oparta na kowariancji jest jedyną naprawdę poprawną”. Ponieważ wszystkie dotychczasowe odpowiedzi są w istocie „Nie, niewłaściwy sposób myślenia o tym, a oto dlaczego”, trudno jest przewidzieć, w jaki sposób można kierować dyskusją przeciwko tak ogromnemu nieporozumieniu.
Nick Cox,
4
@Lucozade: Byłem zdezorientowany co do twojego opisu twojej aplikacji: - Jak PCA cokolwiek poleca ? Jak zmierzyłeś wydajność ? Podobnie w przypadku twojego ostatniego komentarza: - Optymalny do czego?
Scortchi - Przywróć Monikę
5
@Lucozade: Rzeczywiście, słuchaj proszę, co powiedział Scortchi, zdaje się, że nadal gonisz widma. PCA to po prostu specjalna forma rotacji danych w kosmosie. Zawsze robi optymalnie to, co robi z danymi wejściowymi. Dylemat cov-corr jest pragmatyczny, zakorzeniony w przetwarzaniu danych i rozwiązywany na tym poziomie, a nie na poziomie PCA.
ttnphns
1
@Lucozade: Byłaby to moja (nie-ekspercka) opinia oparta na twojej odpowiedzi na to, że w twojej konkretnej potrzebie masz rację, chcąc PCA opartą na cov. Ponownie, wszystkie zmienne są jednorodne pod względem typu danych / pomiaru (ten sam typ maszyny i wszystkie dane w woltach). Dla mnie twój przykład jest wyraźnie przypadkiem, w którym cov-PCA jest poprawny, ale pamiętaj, że nie zawsze tak jest, i myślę, że jest to ważny punkt tego wątku (wybór cor v. Cov jest specyficzny dla przypadku i wymaga do ustalenia przez osobę, która najlepiej rozumie dane i aplikacje). Powodzenia w twoich badaniach!
Patrick
6

Mówiąc z praktycznego punktu widzenia - być może tutaj niepopularnego - jeśli masz dane mierzone w różnych skalach, przejdź do korelacji („skalowanie UV”, jeśli jesteś chemometrem), ale jeśli zmienne są w tej samej skali, a ich wielkość ma znaczenie (np. z danymi spektroskopowymi), wtedy kowariancja (tylko centrowanie danych) ma większy sens. PCA jest metodą zależną od skali, a także transformacja dziennika może pomóc przy mocno wypaczonych danych.

Moim skromnym zdaniem w oparciu o 20 lat praktycznego stosowania chemometrii musisz trochę poeksperymentować i zobaczyć, co najlepiej pasuje do twojego rodzaju danych. Na koniec dnia musisz być w stanie odtworzyć swoje wyniki i spróbować udowodnić przewidywalność swoich wniosków. Jak tam dotrzeć, często dochodzi do prób i błędów, ale najważniejsze jest to, że to, co robisz, jest udokumentowane i odtwarzalne.

znak
źródło
4
Praktyczne podejście, które wydaje się tutaj zalecane, sprowadza się do - gdy uzasadnione są zarówno kowariancje, jak i korelacje - „spróbuj obu i zobacz, co działa najlepiej”. Ta czysta pozycja empiryczna maskuje fakt, że każdy wybór idzie w parze z własnymi założeniami lub paradygmatem dotyczącym rzeczywistości, o której badacz powinien wiedzieć z góry, nawet jeśli rozumie, że woli jedno z nich całkowicie arbitralnie. Wybranie „tego, co działa najlepiej”, polega na czerpaniu z przyjemności, z narcanii.
ttnphns
-2

Nie mam czasu na dokładniejszy opis szczegółowych i technicznych aspektów eksperymentu, który opisałem, a wyjaśnienia dotyczące sformułowań (polecanie, wydajność, optymalne) ponownie odciągnęłyby nas od prawdziwego problemu, jakim jest rodzaj danych wejściowych PCA może (nie) / powinna (nie) brać. PCA działa poprzez przyjmowanie liniowych kombinacji liczb (wartości zmiennych). Matematycznie oczywiście można dodać dowolne dwie (rzeczywiste lub złożone) liczby. Ale jeśli zostały one ponownie przeskalowane przed transformacją PCA, czy ich kombinacja liniowa (a zatem i proces maksymalizacji) jest nadal przydatna? Jeśli każda zmiennaxja ma tę samą wariancję s2), to oczywiście tak, ponieważ (x1/s1)+(x2)/s2))=(x1+x2))/s jest nadal proporcjonalny i porównywalny z fizyczną superpozycją danych x1+x2)samo. Ale jeślis1s2), wówczas liniowa kombinacja znormalizowanych wielkości zniekształca dane zmiennych wejściowych na różnestopnie. Wydaje się więc, że nie ma sensu maksymalizować wariancji ich kombinacji liniowej. W takim przypadku PCA daje rozwiązanie dla innego zestawu danych, w którym każda zmienna jest skalowana inaczej. Jeśli następnie później dostosujesz (używając corr_PCA), może to być OK i konieczne; ale jeśli weźmiesz surowe rozwiązanie corr_PCA w obecnej postaci i na tym poprzestaniesz, uzyskasz rozwiązanie matematyczne, ale nie związane z danymi fizycznymi. Ponieważ późniejsza standaryzacja wydaje się wówczas obowiązkowa jako minimum (tj. „Rozciąganie” osi przez odwrotne odchylenia standardowe), można było na początku użyć cov_PCA. Jeśli nadal czytasz, jestem pod wrażeniem! Na razie kończę cytowaniem z książki Jolliffe'a, str. 42, co dotyczy mnie: „Nie można jednak zapominać, że komputery z macierzą korelacji, po ponownym wyrażeniu w odniesieniu do zmiennych pierwotnych, nadal są liniowymi funkcjami x, które maksymalizują wariancję w odniesieniu do zmiennych znormalizowanych, a nie w odniesieniu do zmiennych pierwotnych. ” Jeśli uważasz, że źle interpretuję to lub jego konsekwencje, ten fragment może być dobrym punktem wyjścia do dalszej dyskusji.

Lucozade
źródło
3
To jest tak zabawne, że twoja odpowiedź, która jest zgodna ze wszystkim, co ludzie tu próbowali ci przekazać, pozostaje dla ciebie nierozstrzygnięta. Wciąż kłócisz się There seems little pointw PCA o korelacje. Cóż, jeśli chcesz pozostać blisko surowych danych („danych fizycznych”, jak to dziwnie nazywasz), naprawdę nie powinieneś używać korelacji, ponieważ odpowiadają one innym („zniekształconym”) danym.
ttnphns
2
(Cd.) Cytat Jolliffe'a stwierdza, że ​​komputery PC otrzymane na podstawie korelacji zawsze będą sobą i nie można ich zamienić z powrotem na komputery PC w kowariancjach, nawet jeśli można je ponownie wyrazić jako liniowe kombinacje oryginalnych zmiennych. Dlatego Jolliffe podkreśla ideę, że wyniki PCA są w pełni zależne od rodzaju zastosowanego przetwarzania wstępnego i że nie ma żadnych „prawdziwych”, „prawdziwych” lub „uniwersalnych” komputerów ...
ttnphns
2
(Cd.) I w rzeczywistości kilka wierszy poniżej Jolliffe mówi o jeszcze jednej „formie” PCA - PCA na X'Xmatrycy. Ta forma jest nawet „bliższa” oryginalnym danym niż cov-PCA, ponieważ nie wykonuje się centrowania zmiennych. A wyniki są zwykle zupełnie inne . Możesz także zrobić PCA na cosinusie. Ludzie robią PCA na wszystkich wersjach macierzy SSCP , aczkolwiek najczęściej stosuje się kowariancje lub korelacje.
ttnphns
3
U podstaw tej odpowiedzi leży dorozumiane założenie, że jednostki, w których dane są mierzone, mają wewnętrzne znaczenie. Rzadko się tak dzieje: możemy zmierzyć długość w angstremach, parsach itp., A czas w pikosekundach lub tysiącleciach, bez zmiany znaczenia danych o jeden jota. Zmiany dokonane w przejściu od kowariancji do korelacji są jedynie zmianami jednostek (które, nawiasem mówiąc, są szczególnie wrażliwe na dane odległe). Sugeruje to, że problemem nie jest kowariancja kontra korelacja, ale raczej znalezienie owocnych sposobów wyrażenia danych do analizy.
whuber
3
@ttnphns I'll stick by the "merely," thanks. Whether or not the implications are "profound," the fact remains that standardization of a variable literally is an affine re-expression of its values: a change in its units of measure. The importance of this observation lies in its implications for some claims appearing in this thread, of which the most prominent is "covariance-based PCA is the only truly correct one." Any conception of correctness that ultimately depends on an essentially arbitrary aspect of the data--how we write them down--cannot be right.
whuber