W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.
26
W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.
Odpowiedzi:
Jednym z powodów jest to, że PCA można uznać za rozkład danych niskiej rangi, który minimalizuje sumę normL2 reszt rozkładu. To znaczy, jeśli Y to twoje dane ( m wektorów n wymiarów), a X to podstawa PCA ( k wektorów n wymiarów), wówczas rozkład będzie ściśle minimalizował
∥Y−XA∥2F=∑j=1m∥Yj−XAj.∥2
Tutaj A jest macierzą współczynników rozkładu PCA, a ∥⋅∥F jest normą Frobeniusa macierzy
Ponieważ PCA minimalizuje normyL2 (tj. Normy kwadratowe), ma te same problemy co najmniej kwadraty lub dopasowanie Gaussa przez wrażliwość na wartości odstające. Ze względu na wyrównywanie odchyleń od wartości odstających zdominują one całkowitą normę, a zatem będą napędzać komponenty PCA.
źródło