Algebra LDA. Siła dyskryminacji Fishera zmiennej i liniowej analizy dyskryminacyjnej

13

Widocznie,

analiza Fishera ma jednocześnie na celu maksymalizację rozdziału między klasami, przy jednoczesnym zminimalizowaniu dyspersji wewnątrz klasy. Przydatną miarą mocy dyskryminacyjnej zmiennej jest zatem wielkość przekątna: .Bii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

I rozumieć, że wielkość ( p x p) z Między ( B ), a W klasie ( W ) matryce są przez liczby zmiennych wejściowych p. Biorąc to pod uwagę, w jaki sposób być „przydatną miarą siły dyskryminacji” pojedynczej zmiennej? Do skonstruowania macierzy B i W wymagane są co najmniej dwie zmienne, więc odpowiednie ślady reprezentowałyby więcej niż jedną zmienną.Bii/Wii

Aktualizacja: Czy mam rację, myśląc, że nie jest śladem nad śladem, w którym sugerowana jest suma, ale elementem macierzy podzielonym przez ? Obecnie jest to jedyny sposób na pogodzenie wyrażenia z koncepcją. B i i W i iBii/WiiBiiWii

Kategoria
źródło

Odpowiedzi:

24

Oto krótka opowieść o liniowej analizie dyskryminacyjnej (LDA) jako odpowiedzi na pytanie.

Gdy mamy jedną zmienną i grup (klas) do jej rozróżnienia, jest to ANOVA. Siła dyskryminacji zmiennej to lub .S S między grupami / S S w ramach grup B / WkSSbetween groups/SSwithin groupsB/W

Kiedy mamy zmienne , jest to MANOVA. Jeśli zmienne nie są skorelowane ani w próbce całkowitej, ani w grupach, to powyższa moc dyskryminacji, , jest obliczana analogicznie i może być zapisana jako , gdzie jest połączoną macierzą rozproszenia wewnątrz grupy (tj. sumą macierzy SSCP zmiennych, wyśrodkowaną wokół centroidu odpowiednich grup); to macierz rozproszenia między grupami , gdzieB / W t r a c e ( S b ) / t r a c e ( S w ) S w k S b = S t - S w S tpB/Wtrace(Sb)/trace(Sw)Swk p x p Sb=StSwSt jest macierzą rozproszenia dla całych danych (macierz SSCP zmiennych wyśrodkowanych wokół wielkiego środka ciężkości. („Macierz rozproszenia” jest tylko macierzą kowariancji bez dzielenia przez wielkość_próbki-1.)

Kiedy istnieje pewna korelacja między zmiennymi - i zwykle istnieje - powyższy jest wyrażany przez który nie jest już skalarem, ale macierzą. To po prostu powodu, że istnieją zmienne dyskryminacyjne ukryte za tym „ogólnej” dyskryminacji i częściowo udostępniania.S - 1 w S b strB/WSw1Sbp

Teraz możemy chcieć zanurzyć się w MANOVA i rozłożyć na nowe i wzajemnie ortogonalne zmienne utajone (ich liczba to ) zwane funkcjami dyskryminacyjnymi lub dyskryminującymi - 1. bycie najsilniejszym dyskryminatorem, drugie miejsce za nim, itd. Podobnie jak my robimy to w analizie składowej Pricipal. Zastępujemy oryginalne skorelowane zmienne nieskorelowanymi dyskryminatorami bez utraty mocy dyskryminacyjnej. Ponieważ każda kolejna dyskryminacja jest coraz słabsza, możemy zaakceptować niewielki podzbiór dyskryminatorów z pierwszego bez wielkiej utraty mocy dyskryminacyjnej (ponownie, podobnie jak w przypadku używania PCA). Jest to esencja LDA jako redukcji wymiarów min(p,k-1)mSw1Sbmin(p,k1)m technika (LDA jest również techniką klasyfikacji Bayesa, ale jest to całkowicie odrębny temat).

LDA przypomina zatem PCA. PCA rozkłada „korelację”, LDA rozkłada „oddzielność”. W LDA, ponieważ powyższa matryca wyrażająca „separację” nie jest symetryczna, do znalezienia wartości własnych i wektorów własnych użyto sztuczki algebraicznej . Wartość własna każdej funkcji dyskryminacyjnej (zmienna utajona) jest jej mocą dyskryminacyjną , o której mówiłem w pierwszym akapicie. Warto również wspomnieć, że dyskryminatory, choć nieskorelowane, nie są geometrycznie ortogonalne jak osie narysowane w pierwotnej przestrzeni zmiennej. B / W1B/W

Niektóre potencjalnie powiązane tematy, które możesz chcieć przeczytać:

LDA jest „pogłębioną” metodą MANOVA w analizie ukrytej struktury i jest szczególnym przypadkiem kanonicznej analizy korelacji (dokładna równoważność między nimi jako taka ). Jak LDA klasyfikuje obiekty i jakie są współczynniki Fishera. (Obecnie prowadzę tylko do moich własnych odpowiedzi, ponieważ je pamiętam, ale na tej stronie jest też wiele dobrych i lepszych odpowiedzi od innych osób).


L S - 1 w S b ( U - 1 ) S b U - 1 U S w U U = S w S1 Obliczenia fazy ekstrakcji LDA są następujące. Wartości własne ( ) dla są takie same jak dla macierzy symetrycznej , gdzie jest pierwiastkiem z : macierzy trójkąta górnego, przy czym . Jeśli chodzi o wektory własne , są one podane przez , gdzie są wektorami własnymi powyższej macierzy . (Uwaga: , będąc trójkątnym, można odwrócićLSw1Sb(U1)SbU1USwUU=SwSw1SbV=U1EE(U1)SbU1U- używając języka niskiego poziomu - szybciej niż przy użyciu standardowej ogólnej funkcji „inv” pakietów.)

Opisana metoda obejścia-kompilacji- jest realizowana w niektórych programach (na przykład w SPSS), podczas gdy w innych programach realizowana jest metoda „quasi zca-whitening”, która: jest trochę wolniejszy, daje te same wyniki i jest opisany w innym miejscu . Podsumowując tutaj: uzyskaj macierz wybielającą ZCA dla - symetryczny sq. Root (co odbywa się poprzez składanie eigend); następnie składowa elektronowa (która jest macierzą symetryczną) daje dyskryminujące wartości własne i wektory własne , przy czym dyskryminujące wektory własneS w S - 1 / 2 wagowo S - 1 / 2 w S b S - 1 / 2 w LAV= S - 1 / 2 wagowo A S wag S BSw1SbSwSw1/2Sw1/2SbSw1/2LAV=Sw1/2A. Metodę „quasi-zca-whitening” można przepisać w celu wykonania poprzez dekompozycję według liczby pojedynczej przypadkowego zestawu danych zamiast pracy z macierzami rozpraszającymi i ; to dodaje precyzję obliczeniową (co jest ważne w sytuacji niemal osobliwości), ale poświęca szybkość.SwSb

OK, przejdźmy do statystyk zwykle obliczanych w LDA. Korelacje kanoniczne odpowiadające wartościom własnym to . Podczas gdy wartość własna dyskryminatora wynosi ANOVA tego dyskryminatora, kanoniczna korelacja do kwadratu wynosi (T = całkowita suma kwadratów) tej ANOVA. B/WB/TΓ=L/(L+1)B/WB/T

Jeśli znormalizujesz (do SS = 1) kolumny wektorów własnych wówczas wartości te mogą być postrzegane jako cosinusy kierunku obrotu zmiennych osi w dyskryminatory osi; więc z ich pomocą można wykreślić dyskryminatory jako osie na wykresie rozrzutu zdefiniowanym przez oryginalne zmienne (wektory własne, jako osie w przestrzeni tych zmiennych, nie są ortogonalne).V

C=Nk VXCX

C0=pdiag(X¯)Cdiag(X¯)p

K=diag(Sw)VSw

R=diag(Sw)1SwV


Zobacz pełny wynik fazy ekstrakcji analizy dyskryminacyjnej danych tęczówki tutaj .

Przeczytaj miłą późniejszą odpowiedź, która wyjaśnia nieco bardziej formalnie i wyszczególnia te same rzeczy, co tutaj.

To pytanie dotyczy kwestii standaryzacji danych przed wykonaniem LDA.

ttnphns
źródło
X
1
Tak. Jednak słowo „podejście Fishera” jest dwuznaczne. Może to oznaczać 2 rzeczy: 1) samą LDA (dla 2 klas) ; 2) Funkcje klasyfikacji Fishera w LDA.
ttnphns