Ogólnie, co należy rozumieć przez powiedzenie, że część wariancji w analizie takiej jak PCA jest wyjaśniona przez pierwszy główny składnik? Czy ktoś może to wyjaśnić intuicyjnie, ale również podać dokładną matematyczną definicję tego, co oznacza „wyjaśniona wariancja” w kategoriach analizy głównego składnika (PCA)?
Dla prostej regresji liniowej r-kwadrat linii najlepszego dopasowania jest zawsze opisany jako wyjaśniona proporcja wariancji, ale nie jestem też pewien, co z tym zrobić. Czy proporcja wariancji jest tutaj tylko odchyleniem punktów od linii najlepszego dopasowania?
regression
pca
linear-model
dimensionality-reduction
użytkownik9097
źródło
źródło
Odpowiedzi:
W przypadku PCA, „odchylenie” oznacza wariancję podsumowującej lub zmienność wieloczynnikowej lub całkowitą zmienność lub całkowitą zmienność . Poniżej znajduje się macierz kowariancji około 3 zmiennych. Ich wariancje są na przekątnej, a suma 3 wartości (3,448) jest zmiennością ogólną.
Teraz PCA zastępuje oryginalne zmienne nowymi zmiennymi, zwanymi głównymi składnikami, które są ortogonalne (tj. Mają zerowe kowariacje) i mają wariancje (zwane wartościami własnymi) w porządku malejącym. Zatem macierz kowariancji między głównymi składnikami wyodrębnionymi z powyższych danych jest następująca:
Należy zauważyć, że suma diagonalna wynosi nadal 3,448, co oznacza, że wszystkie 3 składniki odpowiadają całej zmienności wielowymiarowej. Pierwszy główny składnik odpowiada lub „wyjaśnia” 1,651 / 3,448 = 47,9% ogólnej zmienności; drugi wyjaśnia 1.220 / 3.448 = 35,4%; trzeci wyjaśnia. 577 / 3,448 = 16,7%.
Co mają na myśli, gdy mówią, że „ PCA maksymalizuje wariancję ” lub „ PCA wyjaśnia maksymalną wariancję ”? Nie oznacza to oczywiście, że znajduje największą wariancję wśród trzech wartości
1.343730519 .619205620 1.485549631
, nie. PCA znajduje w przestrzeni danych wymiar (kierunek) o największej wariancji spośród wariancji ogólnej1.343730519+.619205620+1.485549631 = 3.448
. Byłaby to największa wariancja1.651354285
. Następnie znajduje wymiar drugiej największej wariancji, ortogonalnej do pierwszej, spośród pozostałej3.448-1.651354285
ogólnej wariancji. Ten drugi wymiar byłby1.220288343
wariancją. I tak dalej. Ostatnim pozostałym wymiarem jest.576843142
wariancja. Zobacz także „Pt3” tutaj i świetną odpowiedź tutaj wyjaśniając, jak to zrobić bardziej szczegółowo.Matematycznie PCA odbywa się za pomocą funkcji algebry liniowej zwanej rozkładem własnym lub rozkładem svd. Funkcje te zwrócą ci jednocześnie wszystkie wartości własne
1.651354285 1.220288343 .576843142
(i odpowiadające im wektory własne) ( patrz , patrz ).źródło
@ttnphns podał dobrą odpowiedź, być może mógłbym dodać kilka punktów. Po pierwsze, chcę podkreślić, że na CV było istotne pytanie z naprawdę mocną odpowiedzią - zdecydowanie chcesz to sprawdzić. W dalszej części będę odwoływał się do fabuł pokazanych w tej odpowiedzi.
Wszystkie trzy wykresy wyświetlają te same dane. Zauważ, że w danych występuje zmienność zarówno w pionie, jak iw poziomie, ale większość zmienności możemy uznać za diagonalną . Na trzecim wykresie ta długa czarna linia ukośna jest pierwszym wektorem własnym (lub pierwszym składnikiem zasadowym), a długość tego składnika zasadniczego (rozkład danych wzdłuż tej linii - w rzeczywistości nie długość samej linii, która jest właśnie narysowany na wykresie) jest pierwszą wartością własną- jest to kwota wariancji uwzględniona przez pierwszy składnik zasadniczy. Gdyby zsumować tę długość z długością drugiego składnika zasad (czyli szerokości rozłożenia danych prostopadle poza tę linię przekątną), a następnie podzielić którąkolwiek z wartości własnych przez tę sumę, otrzymamy procent wariancji uwzględnionej przez odpowiedni składnik zasady.
Z drugiej strony, aby zrozumieć procent wariancji uwzględnionej w regresji, możesz spojrzeć na górny wykres. W takim przypadku czerwona linia jest linią regresji lub zbiorem przewidywanych wartości z modelu. Wyjaśnioną wariancję można rozumieć jako stosunek pionowego rozproszenia linii regresji (tj. Od najniższego punktu na linii do najwyższego punktu na linii) do pionowego rozproszenia danych (tj. Od najniższego punktu danych do najwyższego punktu danych). Oczywiście jest to tylko luźny pomysł, ponieważ dosłownie są to zakresy, a nie wariancje, ale to powinno pomóc ci zrozumieć.
Przeczytaj pytanie. I chociaż odniosłem się do najwyższej odpowiedzi, kilka udzielonych odpowiedzi jest znakomitych. Warto przeczytać je wszystkie.
źródło
Istnieje bardzo prosta, bezpośrednia i precyzyjna matematyczna odpowiedź na pierwotne pytanie.
Pierwszy komputer to liniowa kombinacja oryginalnych zmiennych , , , która maksymalizuje sumę statystyk podczas przewidywania oryginalnych zmiennych jako funkcji regresji kombinacji liniowej.Y1 Y2 … Yp R2i
Dokładnie, współczynniki , , , w pierwszym komputerze, , dają maksymalną wartość , gdzie maksimum jest uwzględniane we wszystkich możliwych kombinacjach liniowych.a1 a2 … ap PC1=a1Y1+a2Y2+⋯+apYp ∑pi=1R2i(Yi|PC1)
W tym sensie można zinterpretować pierwszy komputer jako maksymalizator „wyjaśnionej wariancji”, a dokładniej jako maksymalizator „wyjaśnionej wariancji całkowitej”.
Jest to „maksymalizator” a nie „maksymalizator”, ponieważ wszelkie współczynniki proporcjonalne , dla , dadzą to samo maksimum. Dobrym produktem ubocznym tego wyniku jest to, że ograniczenie długości jednostki nie jest konieczne, poza tym, że jako urządzenie wymyśliło „maksymalizator”.bi=c×ai c≠0
Odniesienia do oryginalnej literatury i rozszerzeń, patrz
Westfall, PH, Arias, AL i Fulton, LV (2017). Nauczanie głównych składników za pomocą korelacji, wielowymiarowe badania behawioralne, 52, 648-660.
źródło
Pomyśleć o jako zmienną losową jest wynika z dwóch nowych zmiennych losowych i . dlaczego to robimy Może jest złożone, ale i są mniej złożone. Tak czy inaczej, część wariancji wyjaśnia tych i . . Zastosowanie tego do regresji liniowej jest proste. Pomyśl o będącym a oznacza , a następnie . Część wariancji wY=A+B Y A B Y A B Y A B var(Y)=var(A)+var(B)+2cov(A,B) A b0+b1X B e Y b 0 + b 1 XY=b0+b1X+e Y wyjaśniono linią regresji, .b0+b1X
Używamy „odsetek wariancji” terminu, ponieważ chcemy, aby obliczyć, ile linia regresji jest przydatna do przewidzenia (lub modelu) .Y
źródło