Czy PCA jest niestabilna w wielokoliniowości?

25

Wiem, że w sytuacji regresji, jeśli masz zestaw wysoce skorelowanych zmiennych, jest to zwykle „złe” ze względu na niestabilność szacowanych współczynników (wariancja zmierza w kierunku nieskończoności, gdy wyznacznik zmierza w kierunku zera).

Moje pytanie brzmi, czy ta „zła” utrzymuje się w sytuacji PCA. Czy współczynniki / obciążenia / ciężary / wektory własne dla dowolnego komputera stają się niestabilne / arbitralne / niejednorodne, gdy macierz kowariancji staje się pojedyncza? Szczególnie interesuje mnie przypadek, w którym zachowany jest tylko pierwszy główny element, a wszystkie pozostałe są odrzucane jako „hałas”, „coś innego” lub „nieważne”.

Nie sądzę, że tak, ponieważ pozostanie tylko kilka podstawowych składników, które mają zero lub bliskie zeru wariancji.

Łatwo zauważyć, że nie jest tak w prostym przypadku ekstremalnym z 2 zmiennymi - załóżmy, że są one doskonale skorelowane. Wtedy pierwszy PC będzie dokładną zależnością liniową, a drugi PC będzie prostopadły do ​​pierwszego PC, przy wszystkich wartościach PC równych zero dla wszystkich obserwacji (tj. Wariancji zerowej). Zastanawiam się, czy to bardziej ogólne.

prawdopodobieństwo prawdopodobieństwa
źródło
8
Twoje rozumowanie jest dobre. W rzeczywistości można oczekiwać niestabilności, gdy dwie lub więcej wartości własnych jest prawie zbieżnych, ponieważ wówczas, chociaż wartości własne są określone, wektory własne nie są, a zatem nie są również ładunkami. Z powodów numerycznych istnieje również niestabilność wartości własnych (i wektorów własnych), które są bardzo małe w porównaniu z maksymalną wartością własną.
whuber
Komentarz @whuber odpowiada na twoje pytanie, ale chciałbym zauważyć, że w przypadku 2 doskonale skorelowanych zmiennych PCA nie powinien mieć żadnych problemów. Macierz kowariancji miałaby rangę 1, więc będzie tylko 1 niezerowa wartość własna, a więc tylko 1 PC. Oryginalne zmienne będą wielokrotnościami tego komputera. Jedynym problemem może być stabilność numeryczna.
mpiktas
W rzeczywistości myślę, że byłoby gorzej, gdybyś miał umiarkowanie skorelowane zmienne, niż gdybyś miał naprawdę bardzo skorelowane zmienne. Również pod względem numerycznym, jeśli używasz algorytmu takiego jak NIPALS, który usuwa komputery w kolejności
JMS
Jedno - „silnie skorelowane” i „kolinearne” to nie to samo. Jeśli w grę wchodzą więcej niż 2 zmienne, kolinearność nie implikuje korelacji.
Peter Flom - Przywróć Monikę

Odpowiedzi:

11

Odpowiedź można podać w jeszcze prostszych słowach: regresja wielokrotna ma o jeden krok więcej niż pca, jeśli jest postrzegana w kategoriach algebry liniowej, a od drugiego kroku powstaje niestabilność:

RL.L.t

Mult. procedura regresji polega na zastosowaniu odwrócenia tego czynnika chłodniczego minus rząd i kolumna zmiennej zależnej, co jest dogodnie w ostatnim rzędzie macierzy korelacji. W grę wchodzi niestabilność: jeśli zmienne niezależne są silnie skorelowane, to przekątna czynnika chłodniczego L może degenerować się do bardzo małych wartości liczbowych - i odwrócenie tego wprowadza problem dzielenia przez prawie zero.L.
L.

Gottfried Helms
źródło
Z grubsza tego szukałem. W rzeczywistości po przeczytaniu twojej odpowiedzi myślę o innym wytłumaczeniu: obroty są stabilne numerycznie, niezależnie od wyznacznika macierzy kowariancji / korelacji. A ponieważ PCA można określić jako najlepszy obrót osi współrzędnych, będzie on również stabilny numerycznie.
probabilityislogic
Tak, na przykład w „podstawach analizy czynnikowej” Stana Mulaika wyraźnie wymieniono stabilność rotacji komputera (metoda Jacobiego), jeśli dobrze pamiętam źródło. We własnej implementacji analizy czynnikowej robię wszystko po cholesnym przez rotacje: PCA, Varimax, nawet „faktoring osi głównej” (PAF w SPSS) można odbudować na podstawie rotacji. Jeśli regresja wielopunktowa oparta jest na cholesnym czynniku L, a część L zawierająca zmienne niezależne znajduje się w pozycji PC, to wielokoliniowość może być jeszcze lepiej kontrolowana.
Gottfried Helms
3

PCA jest często środkiem do osiągnięcia celów; prowadzące do obu danych wejściowych do regresji wielokrotnej lub do zastosowania w analizie skupień. Myślę, że w twoim przypadku mówisz o wykorzystaniu wyników PCA do przeprowadzenia regresji.

W takim przypadku Twoim celem wykonania PCA jest pozbycie się wielokulturowości i uzyskanie ortogonalnych danych wejściowych do regresji wielokrotnej, co nie jest zaskoczeniem, że nazywa się to Regresją Składników Głównych. Tutaj, jeśli wszystkie twoje oryginalne dane wejściowe były ortogonalne, wykonanie PCA dałoby ci inny zestaw danych ortogonalnych. W związku z tym; jeśli robisz PCA, można założyć, że twoje dane wejściowe mają wielokoliniowość.

λja^jathλja^p

Referencje

Johnson & Wichern (2001). Zastosowana wielowymiarowa analiza statystyczna (wydanie 6). Prentice Hall.

schenectady
źródło
6
Nie jestem pewien, czy OP jest po PCR. PCA to także dobry sposób na podsumowanie wielowymiarowych zestawów danych (niekoniecznie w celu przeprowadzenia redukcji danych w celu późniejszego wykorzystania w ramach modelowania), czyli przybliżenia macierzy VC do macierzy niższego rzędu przy zachowaniu większości informacji. Pytanie wydaje się następujące: czy mam rację, interpretując kilka pierwszych wartości własnych i komputerów PC (jako liniowe kombinacje pierwotnych zmiennych), nawet jeśli wystąpiły pewne efekty kolinearności? Wydaje się, że twoja odpowiedź nie odnosi się bezpośrednio do pytania PO.
chl
2
dobra odpowiedź na temat PCA w ogóle, ale co z tym, kiedy PCA jest produktem końcowym ? Oznacza to, że celem jest wyjście z jednego komputera. @Chl ma rację co do pieniędzy dzięki swojej interpretacji pytania
prawdopodobieństwo
@chl Jaka jest twoja odpowiedź na pytanie: „Czy mam rację, interpretując kilka pierwszych wartości własnych i komputerów, nawet jeśli wystąpiły pewne efekty kolinearności?” Pytam, ponieważ próbuję dowiedzieć się, kiedy warto zachować wysoce skorelowane zmienne podczas przeprowadzania redukcji wymiarowości. Czasami, gdy wiemy z teorii, że dwie zmienne są napędzane przez te same zmienne ukryte, powinieneś usunąć jedną ze zmiennych, aby nie liczyć efektu zmiennej ukrytej dwa razy. Próbuję przemyśleć, kiedy można zachować skorelowane zmienne.
Amatya