Jakiś czas temu użytkownik na liście dyskusyjnej R-help zapytał o zasadność korzystania z wyników PCA w regresji. Użytkownik próbuje użyć wyników komputerowych w celu wyjaśnienia różnic na innym komputerze (patrz pełna dyskusja tutaj ). Odpowiedź brzmiała: nie, to nie jest dźwięk, ponieważ komputery PC są do siebie prostopadłe.
Czy ktoś może wyjaśnić bardziej szczegółowo, dlaczego tak jest?
regression
pca
Roman Luštrik
źródło
źródło
r
tag i co rozumiesz przez „dlaczego tak jest”? Komputery nie są skorelowane, tzn. Są ortogonalne, addytywne, nie można przewidzieć jednego komputera z drugim. Szukasz formuły?Odpowiedzi:
Głównym składnikiem jest ważona liniowa kombinacja wszystkich twoich czynników (X).
przykład: PC1 = 0,1X1 + 0,3X2
Dla każdego czynnika będzie jeden składnik (choć ogólnie wybrana jest niewielka liczba).
Komponenty są tworzone tak, że mają zerową korelację (są ortogonalne), zgodnie z projektem.
Dlatego składnik PC1 nie powinien wyjaśniać żadnych zmian w składniku PC2.
Możesz wykonać regresję zmiennej Y i reprezentacji PCA swoich X, ponieważ nie będą one miały wielu kolinearności. Może to jednak być trudne do interpretacji.
Jeśli masz więcej X niż obserwacje, które łamią OLS, możesz zrezygnować ze swoich komponentów i po prostu wybrać mniejszą liczbę komponentów o największej zmienności.
Analiza głównych składowych autorstwa Jollife bardzo dogłębna i cytowana książka na ten temat
Jest to również dobre: http://www.statsoft.com/textbook/principal-components-factor-analysis/
źródło
Główne elementy są z definicji ortogonalne, więc każda para komputerów będzie miała zerową korelację.
PCA można jednak zastosować w regresji, jeśli istnieje wiele zmiennych objaśniających. Można je zredukować do niewielkiej liczby głównych składników i wykorzystać jako predyktory w regresji.
źródło
Ostrożnie ... tylko dlatego, że komputery są z założenia ortogonalne względem siebie, nie oznacza, że nie ma wzorca lub że jeden komputer nie wydaje się „wyjaśniać” czegoś o innych komputerach.
Rozważ dane 3D (X, Y, Z) opisujące dużą liczbę punktów równomiernie rozmieszczonych na powierzchni futbolu amerykańskiego (jest to elipsoida - nie kula - dla tych, którzy nigdy nie oglądali futbolu amerykańskiego). Wyobraź sobie, że piłka nożna jest w dowolnej konfiguracji, więc ani X, ani Y, ani Z nie znajdują się wzdłuż długiej osi piłki.
Główne komponenty umieszczą PC1 wzdłuż długiej osi piłki nożnej, osi opisującej największą wariancję danych.
Dla dowolnego punktu w wymiarze PC1 wzdłuż długiej osi piłki futbolowej wycinek płaski reprezentowany przez PC2 i PC3 powinien opisywać okrąg, a promień tego okrągłego wycinka zależy od wymiaru PC1. Prawdą jest, że regresje PC2 lub PC3 na PC1 powinny dać współczynnik zerowy globalnie, ale nie na mniejszych odcinkach piłki nożnej ... i jasne jest, że wykres 2D PC1 i PC2 pokazałby „interesującą” granicę graniczną to jest dwuwartościowy, nieliniowy i symetryczny.
źródło
Jeśli Twoje dane są wielowymiarowe i zaszumione, a nie masz dużej liczby próbek, grozi Ci nadmierne dopasowanie. W takich przypadkach warto zastosować PCA (który może uchwycić dominującą część wariancji danych; ortogonalność nie jest problemem) lub analizę czynnikową (która może znaleźć prawdziwe zmienne objaśniające leżące u podstaw danych), aby zmniejszyć wymiarowość danych, a następnie trenuj z nimi model regresji.
Aby zapoznać się z podejściami opartymi na analizie czynnikowej, zapoznaj się z tym dokumentem Model regresji czynnikowej Bayesa i nieparametryczną wersją tego modelu Bayesa , która nie zakłada, że a priori znasz „prawdziwą” liczbę istotnych czynników (lub głównych składników w przypadku PCA).
Dodałbym, że w wielu przypadkach nadzorowana redukcja wymiarów (np. Analiza dyskryminacyjna Fishera ) może dać ulepszenia w stosunku do prostych metod opartych na PCA lub FA, ponieważ można korzystać z informacji na etykiecie podczas zmniejszania wymiarowości.
źródło
Państwo może go wyciągnąć, jeśli przewidywany wynik PC zostało wyizolowane z różnych zmiennych, lub przypadków, niż punktacji predyktorem PC. jeśli tak jest w przypadku przewidywanym, a predyktor nie będzie ortogonalny, a przynajmniej nie musi, korelacja nie jest oczywiście gwarantowana.
źródło