Mam zestaw danych składający się z 15K próbek znakowanych (z 10 grup). Chcę zastosować redukcję wymiarowości do 2 wymiarów, które uwzględnią znajomość etykiet.
Kiedy używam „standardowych” nienadzorowanych technik redukcji wymiarów, takich jak PCA, wykres rozproszenia wydaje się nie mieć nic wspólnego ze znanymi etykietami.
Czy to, czego szukam, ma imię? Chciałbym przeczytać referencje rozwiązań.
Odpowiedzi:
Najbardziej standardowa liniowa metoda nadzorowanej redukcji wymiarowości nazywa się liniową analizą dyskryminacyjną (LDA). Został zaprojektowany w celu znalezienia projekcji nisko wymiarowej, która maksymalizuje separację klas. Wiele informacji na ten temat można znaleźć pod naszym tagiem analizy dyskryminacyjnej oraz w każdym podręczniku do nauki maszyn, takim jak np. Bezpłatnie dostępne elementy uczenia statystycznego .
Oto zdjęcie, które znalazłem tutaj dzięki szybkiemu wyszukiwaniu w Google; pokazuje jednowymiarowe projekcje PCA i LDA, gdy w zbiorze danych znajdują się dwie klasy (dodane przeze mnie pochodzenie):
Inne podejście nazywa się częściowymi najmniejszymi kwadratami (PLS). LDA można interpretować jako szukanie projekcji o najwyższej korelacji ze zmiennymi obojętnymi kodującymi etykiety grup (w tym sensie LDA można postrzegać jako szczególny przypadek analizy korelacji kanonicznej, CCA). W przeciwieństwie do tego, PLS szuka projekcji o najwyższym kowariancji z etykietami grup. Podczas gdy LDA daje tylko 1 oś dla przypadku dwóch grup (jak na powyższym obrazku), PLS znajdzie wiele osi uporządkowanych według malejącej kowariancji. Zauważ, że gdy w zestawie danych znajdują się więcej niż dwie grupy, istnieją różne „smaki” PLS, które dają nieco inne wyniki.
Aktualizacja (2018)
Powinienem znaleźć czas na rozwinięcie tej odpowiedzi; ten wątek wydaje się popularny, ale moja pierwotna odpowiedź powyżej jest bardzo krótka i niewystarczająco szczegółowa.
źródło