W Metodach statystycznych w naukach atmosferycznych Daniel Wilks zauważa, że wielokrotna regresja liniowa może prowadzić do problemów, jeśli między predyktorami występują bardzo silne wzajemne korelacje (wydanie trzecie, strona 559-560):
Patologia, która może wystąpić w wielokrotnej regresji liniowej, polega na tym, że zestaw zmiennych predykcyjnych o silnych wzajemnych korelacjach może skutkować obliczeniem niestabilnej zależności regresji.
(...)
Następnie wprowadza regresję głównego składnika:
Podejściem do rozwiązania tego problemu jest najpierw przekształcenie predyktorów w ich główne składniki, których korelacje są zerowe.
Jak na razie dobrze. Ale następnie podaje kilka stwierdzeń, których nie wyjaśnia (a przynajmniej nie jest wystarczająco szczegółowy, aby zrozumieć):
Jeśli wszystkie główne składowe zostaną zachowane w regresji składowej głównej, wówczas nic nie zostanie uzyskane w porównaniu do konwencjonalnego dopasowania najmniejszych kwadratów do pełnego zestawu predyktorów.
(..) i:
Możliwe jest ponowne wyrażenie regresji składowej głównej w odniesieniu do pierwotnych predyktorów, ale wynik ogólnie będzie obejmować wszystkie oryginalne zmienne predykcyjne, nawet jeśli zastosowano tylko jeden lub kilka predyktorów składowych głównych. Ta odtworzona regresja będzie tendencyjna, chociaż często wariancja jest znacznie mniejsza, co powoduje ogólnie mniejsze MSE.
Nie rozumiem tych dwóch punktów.
Oczywiście, jeśli wszystkie główne składniki zostaną zachowane, wykorzystamy te same informacje, co wtedy, gdy używaliśmy predyktorów w ich oryginalnej przestrzeni. Jednak problem wzajemnych korelacji usuwa się, pracując w głównej przestrzeni komponentów. Nadal możemy mieć przeregulowanie, ale czy to jedyny problem? Dlaczego nic nie zyskuje?
Po drugie, nawet jeśli skracamy główne elementy (być może w celu zmniejszenia hałasu i / lub zapobiegania przeuczeniu), dlaczego i jak prowadzi to do tendencyjnego odtworzenia regresji? W jakim stopniu?
Źródło książki: Daniel S. Wilks, Metody statystyczne w naukach atmosferycznych, trzecie wydanie, 2011. International Geophysics Series Volume 100, Academic Press.
źródło
Odpowiedzi:
Co dzieje się, gdy używane są wszystkie komputery?
Jeśli używane są wszystkie komputery PC, uzyskane współczynniki regresji będą identyczne ze współczynnikami uzyskanymi w przypadku regresji OLS, a zatem procedura ta nie powinna być nazywana „regresją głównego elementu”. Jest to standardowa regresja, wykonywana tylko w sposób okrężny.
Pytasz, jak to możliwe, że nic się nie zyskuje, biorąc pod uwagę, że po PCA predyktory stają się ortogonalne. Diabeł ukrywa się w wstecznej transformacji współczynników regresji z przestrzeni PCA do przestrzeni pierwotnej. Musisz wiedzieć, że wariancja szacowanych współczynników regresji odwrotnie zależy od macierzy kowariancji predyktorów. Predyktory transformowane PCA, nazwijmy je , mają diagonalną macierz kowariancji (ponieważ są nieskorelowane). Więc wszystkie współczynniki regresji dlaZZ Z X Xja
Więc nic nie zyskuje.
Co się stanie, gdy używanych będzie tylko kilka komputerów?
Jest to przykład kompromisu wariancji odchylenia . Zobacz Dlaczego działa skurcz? na dalszą ogólną dyskusję.
Dlaczego korzystanie z komputerów o dużej zmienności jest w ogóle dobrym pomysłem?
Nie było to częścią pytania, ale możesz przeczytać następujący wątek do dalszego czytania: W jaki sposób najważniejsze główne komponenty mogą zachować moc predykcyjną zmiennej zależnej (lub nawet prowadzić do lepszych prognoz)?
źródło