Wiem, że w sytuacji regresji, jeśli masz zestaw wysoce skorelowanych zmiennych, jest to zwykle „złe” ze względu na niestabilność szacowanych współczynników (wariancja zmierza w kierunku nieskończoności, gdy wyznacznik zmierza w kierunku zera).
Moje pytanie brzmi, czy ta „zła” utrzymuje się w sytuacji PCA. Czy współczynniki / obciążenia / ciężary / wektory własne dla dowolnego komputera stają się niestabilne / arbitralne / niejednorodne, gdy macierz kowariancji staje się pojedyncza? Szczególnie interesuje mnie przypadek, w którym zachowany jest tylko pierwszy główny element, a wszystkie pozostałe są odrzucane jako „hałas”, „coś innego” lub „nieważne”.
Nie sądzę, że tak, ponieważ pozostanie tylko kilka podstawowych składników, które mają zero lub bliskie zeru wariancji.
Łatwo zauważyć, że nie jest tak w prostym przypadku ekstremalnym z 2 zmiennymi - załóżmy, że są one doskonale skorelowane. Wtedy pierwszy PC będzie dokładną zależnością liniową, a drugi PC będzie prostopadły do pierwszego PC, przy wszystkich wartościach PC równych zero dla wszystkich obserwacji (tj. Wariancji zerowej). Zastanawiam się, czy to bardziej ogólne.
źródło
Odpowiedzi:
Odpowiedź można podać w jeszcze prostszych słowach: regresja wielokrotna ma o jeden krok więcej niż pca, jeśli jest postrzegana w kategoriach algebry liniowej, a od drugiego kroku powstaje niestabilność:
Mult. procedura regresji polega na zastosowaniu odwrócenia tego czynnika chłodniczego minus rząd i kolumna zmiennej zależnej, co jest dogodnie w ostatnim rzędzie macierzy korelacji. W grę wchodzi niestabilność: jeśli zmienne niezależne są silnie skorelowane, to przekątna czynnika chłodniczego L może degenerować się do bardzo małych wartości liczbowych - i odwrócenie tego wprowadza problem dzielenia przez prawie zero.L.
L.
źródło
PCA jest często środkiem do osiągnięcia celów; prowadzące do obu danych wejściowych do regresji wielokrotnej lub do zastosowania w analizie skupień. Myślę, że w twoim przypadku mówisz o wykorzystaniu wyników PCA do przeprowadzenia regresji.
W takim przypadku Twoim celem wykonania PCA jest pozbycie się wielokulturowości i uzyskanie ortogonalnych danych wejściowych do regresji wielokrotnej, co nie jest zaskoczeniem, że nazywa się to Regresją Składników Głównych. Tutaj, jeśli wszystkie twoje oryginalne dane wejściowe były ortogonalne, wykonanie PCA dałoby ci inny zestaw danych ortogonalnych. W związku z tym; jeśli robisz PCA, można założyć, że twoje dane wejściowe mają wielokoliniowość.
Referencje
Johnson & Wichern (2001). Zastosowana wielowymiarowa analiza statystyczna (wydanie 6). Prentice Hall.
źródło