Dlaczego PCA jest wrażliwa na wartości odstające?

26

W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.

Psi
źródło
5
Ponieważ wkład normy L2 jest bardzo wysoki dla wartości odstających. Następnie, gdy minimalizujesz normę L2 (co PCA próbuje zrobić), punkty te przyciągną się mocniej, niż punkty bliższe środkowej woli.
mathreadler
Ta odpowiedź mówi ci wszystko, czego potrzebujesz. Wystarczy wyobrazić sobie wartość odstającą i uważnie przeczytać.
S. Kolassa - Przywróć Monikę

Odpowiedzi:

35

Jednym z powodów jest to, że PCA można uznać za rozkład danych niskiej rangi, który minimalizuje sumę norm L2 reszt rozkładu. To znaczy, jeśli Y to twoje dane ( m wektorów n wymiarów), a X to podstawa PCA ( k wektorów n wymiarów), wówczas rozkład będzie ściśle minimalizował

YXAF2=j=1mYjXAj.2
Tutaj A jest macierzą współczynników rozkładu PCA, a F jest normą Frobeniusa macierzy

Ponieważ PCA minimalizuje normy L2 (tj. Normy kwadratowe), ma te same problemy co najmniej kwadraty lub dopasowanie Gaussa przez wrażliwość na wartości odstające. Ze względu na wyrównywanie odchyleń od wartości odstających zdominują one całkowitą normę, a zatem będą napędzać komponenty PCA.

sega_sai
źródło