Oto krótka opowieść o liniowej analizie dyskryminacyjnej (LDA) jako odpowiedzi na pytanie.
Gdy mamy jedną zmienną i grup (klas) do jej rozróżnienia, jest to ANOVA. Siła dyskryminacji zmiennej to lub .S S między grupami / S S w ramach grup B / WkS.S.pomiędzy grupami/ SS.w ramach grupCzarno - biały
Kiedy mamy zmienne , jest to MANOVA. Jeśli zmienne nie są skorelowane ani w próbce całkowitej, ani w grupach, to powyższa moc dyskryminacji, , jest obliczana analogicznie i może być zapisana jako , gdzie jest połączoną macierzą rozproszenia wewnątrz grupy (tj. sumą macierzy SSCP zmiennych, wyśrodkowaną wokół centroidu odpowiednich grup); to macierz rozproszenia między grupami , gdzieB / W t r a c e ( S b ) / t r a c e ( S w ) S w k S b = S t - S w S tpCzarno - białyt r a c e ( Sb)/ trace( Sw)S.wk p x p
S.b= St- SwS.t jest macierzą rozproszenia dla całych danych (macierz SSCP zmiennych wyśrodkowanych wokół wielkiego środka ciężkości. („Macierz rozproszenia” jest tylko macierzą kowariancji bez dzielenia przez wielkość_próbki-1.)
Kiedy istnieje pewna korelacja między zmiennymi - i zwykle istnieje - powyższy jest wyrażany przez który nie jest już skalarem, ale macierzą. To po prostu powodu, że istnieją zmienne dyskryminacyjne ukryte za tym „ogólnej” dyskryminacji i częściowo udostępniania.S - 1 w S b strCzarno - białyS.- 1wS.bp
Teraz możemy chcieć zanurzyć się w MANOVA i rozłożyć na nowe i wzajemnie ortogonalne zmienne utajone (ich liczba to ) zwane funkcjami dyskryminacyjnymi lub dyskryminującymi - 1. bycie najsilniejszym dyskryminatorem, drugie miejsce za nim, itd. Podobnie jak my robimy to w analizie składowej Pricipal. Zastępujemy oryginalne skorelowane zmienne nieskorelowanymi dyskryminatorami bez utraty mocy dyskryminacyjnej. Ponieważ każda kolejna dyskryminacja jest coraz słabsza, możemy zaakceptować niewielki podzbiór dyskryminatorów z pierwszego bez wielkiej utraty mocy dyskryminacyjnej (ponownie, podobnie jak w przypadku używania PCA). Jest to esencja LDA jako redukcji wymiarów min(p,k-1)mS.- 1wS.bm i n ( p , k - 1 )m technika (LDA jest również techniką klasyfikacji Bayesa, ale jest to całkowicie odrębny temat).
LDA przypomina zatem PCA. PCA rozkłada „korelację”, LDA rozkłada „oddzielność”. W LDA, ponieważ powyższa matryca wyrażająca „separację” nie jest symetryczna, do znalezienia wartości własnych i wektorów własnych użyto sztuczki algebraicznej . Wartość własna każdej funkcji dyskryminacyjnej (zmienna utajona) jest jej mocą dyskryminacyjną , o której mówiłem w pierwszym akapicie. Warto również wspomnieć, że dyskryminatory, choć nieskorelowane, nie są geometrycznie ortogonalne jak osie narysowane w pierwotnej przestrzeni zmiennej. B / W1B/W
Niektóre potencjalnie powiązane tematy, które możesz chcieć przeczytać:
LDA jest „pogłębioną” metodą MANOVA w analizie ukrytej struktury i jest szczególnym przypadkiem kanonicznej analizy korelacji (dokładna równoważność między nimi jako taka ).
Jak LDA klasyfikuje obiekty i jakie są współczynniki Fishera. (Obecnie prowadzę tylko do moich własnych odpowiedzi, ponieważ je pamiętam, ale na tej stronie jest też wiele dobrych i lepszych odpowiedzi od innych osób).
L S - 1 w S b ( U - 1 ) ′ S b U - 1 U S w U ′ U = S w S1 Obliczenia fazy ekstrakcji LDA są następujące. Wartości własne ( ) dla są takie same jak dla macierzy symetrycznej , gdzie jest pierwiastkiem z : macierzy trójkąta górnego, przy czym . Jeśli chodzi o wektory własne , są one podane przez , gdzie są wektorami własnymi powyższej macierzy . (Uwaga: , będąc trójkątnym, można odwrócićLS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSbV=U−1EE(U−1)′SbU−1U- używając języka niskiego poziomu - szybciej niż przy użyciu standardowej ogólnej funkcji „inv” pakietów.)
Opisana metoda obejścia-kompilacji- jest realizowana w niektórych programach (na przykład w SPSS), podczas gdy w innych programach realizowana jest metoda „quasi zca-whitening”, która: jest trochę wolniejszy, daje te same wyniki i jest opisany w innym miejscu . Podsumowując tutaj: uzyskaj macierz wybielającą ZCA dla - symetryczny sq. Root (co odbywa się poprzez składanie eigend); następnie składowa elektronowa (która jest macierzą symetryczną) daje dyskryminujące wartości własne i wektory własne , przy czym dyskryminujące wektory własneS w S - 1 / 2 wagowo S - 1 / 2 w S b S - 1 / 2 w LAV= S - 1 / 2 wagowo A S wag S BS−1wSbSwS−1/2wS−1/2wSbS−1/2wLAV=S−1/2wA. Metodę „quasi-zca-whitening” można przepisać w celu wykonania poprzez dekompozycję według liczby pojedynczej przypadkowego zestawu danych zamiast pracy z macierzami rozpraszającymi i ; to dodaje precyzję obliczeniową (co jest ważne w sytuacji niemal osobliwości), ale poświęca szybkość.SwSb
OK, przejdźmy do statystyk zwykle obliczanych w LDA. Korelacje kanoniczne odpowiadające wartościom własnym to . Podczas gdy wartość własna dyskryminatora wynosi ANOVA tego dyskryminatora, kanoniczna korelacja do kwadratu wynosi (T = całkowita suma kwadratów) tej ANOVA. B/WB/TΓ=L/(L+1)−−−−−−−−−√B/WB/T
Jeśli znormalizujesz (do SS = 1) kolumny wektorów własnych wówczas wartości te mogą być postrzegane jako cosinusy kierunku obrotu zmiennych osi w dyskryminatory osi; więc z ich pomocą można wykreślić dyskryminatory jako osie na wykresie rozrzutu zdefiniowanym przez oryginalne zmienne (wektory własne, jako osie w przestrzeni tych zmiennych, nie są ortogonalne).V
C=N−k−−−−−√ VXCX
C0=−∑pdiag(X¯)Cdiag(X¯)∑p
K=diag(Sw)−−−−−−−−√VSw
R=diag(Sw)−1SwV
Zobacz pełny wynik fazy ekstrakcji analizy dyskryminacyjnej danych tęczówki tutaj .
Przeczytaj tę miłą późniejszą odpowiedź, która wyjaśnia nieco bardziej formalnie i wyszczególnia te same rzeczy, co tutaj.
To pytanie dotyczy kwestii standaryzacji danych przed wykonaniem LDA.