Nadzorowana redukcja wymiarów

13

Mam zestaw danych składający się z 15K próbek znakowanych (z 10 grup). Chcę zastosować redukcję wymiarowości do 2 wymiarów, które uwzględnią znajomość etykiet.

Kiedy używam „standardowych” nienadzorowanych technik redukcji wymiarów, takich jak PCA, wykres rozproszenia wydaje się nie mieć nic wspólnego ze znanymi etykietami.

Czy to, czego szukam, ma imię? Chciałbym przeczytać referencje rozwiązań.

Roy
źródło
3
Jeśli szukasz metod liniowych, powinieneś użyć liniowej analizy dyskryminacyjnej (LDA).
ameba mówi Przywróć Monikę
@amoeba: Dzięki. Użyłem go i działał znacznie lepiej!
Roy
Cieszę się, że to pomogło. Udzieliłem krótkiej odpowiedzi z kilkoma dalszymi odniesieniami.
ameba mówi Przywróć Monikę
1
Jedną z możliwości byłoby najpierw zmniejszenie do dziewięciowymiarowej przestrzeni obejmującej centroidy klasy, a następnie użycie PCA w celu dalszego zmniejszenia do dwóch wymiarów.
A. Donda,
Powiązane: stats.stackexchange.com/questions/16305 (być może duplikat, choć może odwrotnie. Wrócę do tego po aktualizacji mojej odpowiedzi poniżej.)
Amoeba mówi Przywróć Monikę

Odpowiedzi:

27

Najbardziej standardowa liniowa metoda nadzorowanej redukcji wymiarowości nazywa się liniową analizą dyskryminacyjną (LDA). Został zaprojektowany w celu znalezienia projekcji nisko wymiarowej, która maksymalizuje separację klas. Wiele informacji na ten temat można znaleźć pod naszym tagiem oraz w każdym podręczniku do nauki maszyn, takim jak np. Bezpłatnie dostępne elementy uczenia statystycznego .

Oto zdjęcie, które znalazłem tutaj dzięki szybkiemu wyszukiwaniu w Google; pokazuje jednowymiarowe projekcje PCA i LDA, gdy w zbiorze danych znajdują się dwie klasy (dodane przeze mnie pochodzenie):

PCA vs LDA

Inne podejście nazywa się częściowymi najmniejszymi kwadratami (PLS). LDA można interpretować jako szukanie projekcji o najwyższej korelacji ze zmiennymi obojętnymi kodującymi etykiety grup (w tym sensie LDA można postrzegać jako szczególny przypadek analizy korelacji kanonicznej, CCA). W przeciwieństwie do tego, PLS szuka projekcji o najwyższym kowariancji z etykietami grup. Podczas gdy LDA daje tylko 1 oś dla przypadku dwóch grup (jak na powyższym obrazku), PLS znajdzie wiele osi uporządkowanych według malejącej kowariancji. Zauważ, że gdy w zestawie danych znajdują się więcej niż dwie grupy, istnieją różne „smaki” PLS, które dają nieco inne wyniki.

Aktualizacja (2018)

Powinienem znaleźć czas na rozwinięcie tej odpowiedzi; ten wątek wydaje się popularny, ale moja pierwotna odpowiedź powyżej jest bardzo krótka i niewystarczająco szczegółowa.

k

ameba mówi Przywróć Monikę
źródło
1
ładna grafika, wyjaśnia wiele
Titou