Czy można zastosować regresję wielokrotną, aby przewidzieć jeden główny składnik (PC) z kilku innych komputerów?

15

Jakiś czas temu użytkownik na liście dyskusyjnej R-help zapytał o zasadność korzystania z wyników PCA w regresji. Użytkownik próbuje użyć wyników komputerowych w celu wyjaśnienia różnic na innym komputerze (patrz pełna dyskusja tutaj ). Odpowiedź brzmiała: nie, to nie jest dźwięk, ponieważ komputery PC są do siebie prostopadłe.

Czy ktoś może wyjaśnić bardziej szczegółowo, dlaczego tak jest?

Roman Luštrik
źródło
1
Dlaczego umieściłeś rtag i co rozumiesz przez „dlaczego tak jest”? Komputery nie są skorelowane, tzn. Są ortogonalne, addytywne, nie można przewidzieć jednego komputera z drugim. Szukasz formuły?
aL3xa
Zastanawiałem się nad zasadami logiki (w moim dążeniu do zrozumienia PCA). Użyłem tagu R, ponieważ ludzie R mogą to przeczytać i być może pokazać przykłady R. :)
Roman Luštrik
Och, dlaczego tak nie powiedziałeś? Czy widziałeś statmethods.net/advstats/factor.html
aL3xa

Odpowiedzi:

11

Głównym składnikiem jest ważona liniowa kombinacja wszystkich twoich czynników (X).

przykład: PC1 = 0,1X1 + 0,3X2

Dla każdego czynnika będzie jeden składnik (choć ogólnie wybrana jest niewielka liczba).

Komponenty są tworzone tak, że mają zerową korelację (są ortogonalne), zgodnie z projektem.

Dlatego składnik PC1 nie powinien wyjaśniać żadnych zmian w składniku PC2.

Możesz wykonać regresję zmiennej Y i reprezentacji PCA swoich X, ponieważ nie będą one miały wielu kolinearności. Może to jednak być trudne do interpretacji.

Jeśli masz więcej X niż obserwacje, które łamią OLS, możesz zrezygnować ze swoich komponentów i po prostu wybrać mniejszą liczbę komponentów o największej zmienności.

Analiza głównych składowych autorstwa Jollife bardzo dogłębna i cytowana książka na ten temat

Jest to również dobre: http://www.statsoft.com/textbook/principal-components-factor-analysis/

Neil McGuigan
źródło
11

Główne elementy są z definicji ortogonalne, więc każda para komputerów będzie miała zerową korelację.

PCA można jednak zastosować w regresji, jeśli istnieje wiele zmiennych objaśniających. Można je zredukować do niewielkiej liczby głównych składników i wykorzystać jako predyktory w regresji.

Rob Hyndman
źródło
Czy to nie byłoby FA?
Roman Luštrik
3
Nie. FA nie jest regresją. Mam na myśli zmienną odpowiedzi regresowaną względem głównych składników obliczoną z dużej liczby zmiennych objaśniających. Same główne elementy są ściśle powiązane z czynnikami FA.
Rob Hyndman,
Przepraszam, powinienem być bardziej precyzyjny w moim komentarzu. Twoje pismo, że zmienne objaśniające można sprowadzić do niewielkiej liczby komputerów, zadzwoniło do mnie „analizą czynnikową”.
Roman Luštrik
W zestawie z n zmiennymi można wyodrębnić n komputerów, ale możesz zdecydować, ile chcesz zachować, np. Kryterium Guttmana-Keizera mówi: zachowaj wszystkie komputery, których wartość własna (wariancja) jest większa niż 1. Więc .. ,
aL3xa
7

Ostrożnie ... tylko dlatego, że komputery są z założenia ortogonalne względem siebie, nie oznacza, że ​​nie ma wzorca lub że jeden komputer nie wydaje się „wyjaśniać” czegoś o innych komputerach.

Rozważ dane 3D (X, Y, Z) opisujące dużą liczbę punktów równomiernie rozmieszczonych na powierzchni futbolu amerykańskiego (jest to elipsoida - nie kula - dla tych, którzy nigdy nie oglądali futbolu amerykańskiego). Wyobraź sobie, że piłka nożna jest w dowolnej konfiguracji, więc ani X, ani Y, ani Z nie znajdują się wzdłuż długiej osi piłki.

Główne komponenty umieszczą PC1 wzdłuż długiej osi piłki nożnej, osi opisującej największą wariancję danych.

Dla dowolnego punktu w wymiarze PC1 wzdłuż długiej osi piłki futbolowej wycinek płaski reprezentowany przez PC2 i PC3 powinien opisywać okrąg, a promień tego okrągłego wycinka zależy od wymiaru PC1. Prawdą jest, że regresje PC2 lub PC3 na PC1 powinny dać współczynnik zerowy globalnie, ale nie na mniejszych odcinkach piłki nożnej ... i jasne jest, że wykres 2D PC1 i PC2 pokazałby „interesującą” granicę graniczną to jest dwuwartościowy, nieliniowy i symetryczny.

Paweł
źródło
3

Jeśli Twoje dane są wielowymiarowe i zaszumione, a nie masz dużej liczby próbek, grozi Ci nadmierne dopasowanie. W takich przypadkach warto zastosować PCA (który może uchwycić dominującą część wariancji danych; ortogonalność nie jest problemem) lub analizę czynnikową (która może znaleźć prawdziwe zmienne objaśniające leżące u podstaw danych), aby zmniejszyć wymiarowość danych, a następnie trenuj z nimi model regresji.

Aby zapoznać się z podejściami opartymi na analizie czynnikowej, zapoznaj się z tym dokumentem Model regresji czynnikowej Bayesa i nieparametryczną wersją tego modelu Bayesa , która nie zakłada, że a priori znasz „prawdziwą” liczbę istotnych czynników (lub głównych składników w przypadku PCA).

Dodałbym, że w wielu przypadkach nadzorowana redukcja wymiarów (np. Analiza dyskryminacyjna Fishera ) może dać ulepszenia w stosunku do prostych metod opartych na PCA lub FA, ponieważ można korzystać z informacji na etykiecie podczas zmniejszania wymiarowości.

heban1
źródło
0

Państwo może go wyciągnąć, jeśli przewidywany wynik PC zostało wyizolowane z różnych zmiennych, lub przypadków, niż punktacji predyktorem PC. jeśli tak jest w przypadku przewidywanym, a predyktor nie będzie ortogonalny, a przynajmniej nie musi, korelacja nie jest oczywiście gwarantowana.

Tomas Boncompte
źródło