Solidna metoda PCA (opracowana przez Candes i in. 2009 lub jeszcze lepiej Netrepalli i in. 2014 ) jest popularną metodą wykrywania zmiennych odstających na wielu odmianach , ale odległość Mahalanobisa można również zastosować do detekcji wartości odstających, biorąc pod uwagę solidną, regularną ocenę macierzy kowariancji . Jestem ciekawy (nie) zalet używania jednej metody nad drugą.
Moja intuicja mówi mi, że największe rozróżnienie między nimi jest następujące: Gdy zbiór danych jest „mały” (w sensie statystycznym), solidny PCA da kowariancję niższego rzędu, podczas gdy solidna estymacja macierzy kowariancji da zamiast tego pełny kowariancja rang spowodowana regularyzacją Ledoit-Wolf. Jak to z kolei wpływa na wykrywanie wartości odstających?
pca
outliers
covariance-matrix
robust
anomaly-detection
Mustafa S Eisa
źródło
źródło
Odpowiedzi:
W tym artykule porównano niektóre metody w tym obszarze. Odnoszą się one do metody Solidnego PCA, do której się przyłączyłeś, jako „PCP” (dążenie do głównych składników) oraz do rodziny metod, z którymi się połączyłeś w celu solidnego oszacowania kowariancji jako M-estymatory.
Twierdzą, że
i pokazują, że PCP (znany również jako solidny PCA) może się nie udać w przypadku wykrycia wartości odstających w niektórych przypadkach.
Mówią także o trzech rodzajach „wrogów odzyskiwania podprzestrzeni”, tj. O różnych rodzajach wartości odstających, oraz o tym, jakie metody mogą być przydatne w radzeniu sobie z każdym z nich. Porównanie własnych wartości odstających z trzema rodzajami „wrogów” omawianych tutaj może pomóc ci wybrać podejście.
źródło