Solidny PCA w porównaniu z solidną odległością Mahalanobisa do wykrywania wartości odstających

17

Solidna metoda PCA (opracowana przez Candes i in. 2009 lub jeszcze lepiej Netrepalli i in. 2014 ) jest popularną metodą wykrywania zmiennych odstających na wielu odmianach , ale odległość Mahalanobisa można również zastosować do detekcji wartości odstających, biorąc pod uwagę solidną, regularną ocenę macierzy kowariancji . Jestem ciekawy (nie) zalet używania jednej metody nad drugą.

Moja intuicja mówi mi, że największe rozróżnienie między nimi jest następujące: Gdy zbiór danych jest „mały” (w sensie statystycznym), solidny PCA da kowariancję niższego rzędu, podczas gdy solidna estymacja macierzy kowariancji da zamiast tego pełny kowariancja rang spowodowana regularyzacją Ledoit-Wolf. Jak to z kolei wpływa na wykrywanie wartości odstających?

Mustafa S Eisa
źródło
Ciekawe pytanie, ale nie widzę, jak można zmotywować odpowiedź bez konkretnego przypadku użycia. Czy masz „rażąco spaczone obserwacje” ? Czy masz ogólnie zaszumione dane? Wiele implementacji RPCA jest zasadniczo solidnymi technikami estymacji kowariancji (patrz Jolliffe's Princ. Component Analysis, Wyd. 2 Ch. 10), w których komputery PC są szacowane na podstawie regularnej oceny kowariancji. Tak więc rozróżnienia od dwóch wspomnianych przez ciebie metod nie są jednoznaczne. Zasadniczo automatyczne wykrywanie wartości odstających jest skuteczne w kontekście konkretnej aplikacji.
usεr11852 mówi Przywróć Monic
1
Problem „zaszumionych danych” nie jest wykrywaniem wartości odstających. Myślę, że problem wykrywania wartości odstających jest sam w sobie wystarczająco restrykcyjny, aby umożliwić ogólne porównanie tych dwóch metod bez przypadku użycia. To jest pytanie dotyczące metodologii.
Mustafa S Eisa
Może próbowałem powiedzieć za dużo na zbyt małej przestrzeni, przepraszam za to. Chciałbym zwrócić uwagę na to, że wspomniane dwa podejścia nie są odrębne. Powinieneś rozważyć skupienie się bardziej na porównaniu pomiędzy podejściem do projekcji (co nazywasz RPCA) a solidnym podejściem do szacowania kowariancji (co nazywasz odległościami Mahalanobis). Solidne oszacowanie kowariancji samo w sobie jest całkowicie poprawną metodologią dla implementacji RPCA (np. Google „PCA M-Estimation”). Nie wspominaj też o obecności ważonych podejść PCA, o których w jakiś sposób nie wspominasz w kontekście RPCA.
usεr11852 mówi Przywróć Monic
Nie ma potrzeby przeprosin :) Te dwie metody są bardzo różne, szczególnie w przypadku małych zestawów danych. Jeden ze sposobów, w jaki się różnią, jest wymieniony na końcu mojego pytania. Podczas gdy (solidny) PCA może być postrzegany jako problem z projekcją, może być również interpretowany jako problem szacowania kowariancji, więc być może istnieje mniejsze rozróżnienie w metodzie szacowania parametrów niż w zastosowaniu i wydajności.
Mustafa S Eisa
@ MustafaSEisa / Nice question! Myślę, że można na nie odpowiedzieć z przyczyn metodologicznych: w rzeczywistości jest to jeden z moich pete peeves. Spróbuję jak najszybciej odpowiedzieć niepewnie. W międzyczasie; Myślę, że owocnym sposobem podejścia do tego bardziej ogólnie jest przyjrzenie się konsekwencjom używania modeli z zagnieżdżoną, ale nierówną grupą niezmienniczości. Jak staram się robić tutaj w nieco innym kontekście.
user603

Odpowiedzi:

7

W tym artykule porównano niektóre metody w tym obszarze. Odnoszą się one do metody Solidnego PCA, do której się przyłączyłeś, jako „PCP” (dążenie do głównych składników) oraz do rodziny metod, z którymi się połączyłeś w celu solidnego oszacowania kowariancji jako M-estymatory.

Twierdzą, że

PCP jest zaprojektowany dla równomiernie uszkodzonych współrzędnych danych, zamiast uszkodzonych punktów danych (tj. Wartości odstających), dlatego porównanie z PCP jest nieco niesprawiedliwe dla tego rodzaju danych

i pokazują, że PCP (znany również jako solidny PCA) może się nie udać w przypadku wykrycia wartości odstających w niektórych przypadkach.

Mówią także o trzech rodzajach „wrogów odzyskiwania podprzestrzeni”, tj. O różnych rodzajach wartości odstających, oraz o tym, jakie metody mogą być przydatne w radzeniu sobie z każdym z nich. Porównanie własnych wartości odstających z trzema rodzajami „wrogów” omawianych tutaj może pomóc ci wybrać podejście.

David J. Harris
źródło
Dzięki za Davida, spojrzę na gazetę. Istnieje jednak wersja solidnego PCA, która nakłada karę niezmienną obrotowo na układ odniesienia (wiersze matrycy danych) zamiast kary na współrzędne (takie jak w przypadku Candesa). Myśli?
Mustafa S Eisa
Nie jestem pewien, czy rozumiem twoje pytanie. Czy prosisz mnie o porównanie dwóch podejść omówionych w pytaniu z innym solidnym podejściem PCA?
David J. Harris
11
Jeśli twoja odpowiedź brzmi „nie”, to w porządku, po prostu się zastanawiam.
Mustafa S Eisa
Rozumiem. Czy byłby to szczególny przypadek odległości Mahalanobisa?
David J. Harris