„Analiza dyskryminacyjna Fishera” to po prostu LDA w sytuacji 2 klas. Gdy są tylko 2 klasy, możliwe są ręczne obliczenia, a analiza jest bezpośrednio związana z regresją wielokrotną. LDA jest bezpośrednim rozszerzeniem pomysłu Fishera na sytuację dowolnej liczby klas i do obliczeń wykorzystuje urządzenia algebry macierzowej (takie jak skład eigend). Termin „analiza dyskryminacyjna Fishera” można dziś uznać za przestarzały. Zamiast tego należy zastosować „liniową analizę dyskryminacyjną”. Zobacz także . Analiza dyskryminacyjna z klasami 2+ (wieloklasowa) jest kanoniczna według swojego algorytmu (wyodrębnia dikryminanty jako wariacje kanoniczne); rzadki termin „kanoniczna analiza dyskryminacyjna”
Fisher wykorzystał coś, co wtedy nazwano „funkcjami klasyfikacji Fishera”, aby sklasyfikować obiekty po obliczeniu funkcji dyskryminacyjnej. Obecnie w procedurze LDA stosuje się bardziej ogólne podejście Bayesa do klasyfikacji obiektów.
Na prośbę o wyjaśnienia LDA mogę przesłać ci następujące odpowiedzi: wyodrębnienie w LDA , klasyfikacja w LDA , LDA wśród powiązanych procedur . Także to , to , to pytania i odpowiedzi.
Podobnie jak ANOVA wymaga założenia równych wariancji, LDA wymaga założenia macierzy równych wariancji-kowariancji (między zmiennymi wejściowymi) klas. To założenie jest ważne na etapie klasyfikacji analizy. Jeśli matryce zasadniczo się różnią, obserwacje będą miały tendencję do przypisywania do klasy, w której zmienność jest większa. Aby rozwiązać ten problem, opracowano QDA . QDA jest modyfikacją LDA, która pozwala na powyższą heterogeniczność macierzy kowariancji klas.
Jeśli masz heterogeniczność (jak wykryto na przykład w teście Boxa M) i nie masz pod ręką QDA, nadal możesz używać LDA w trybie używania indywidualnych macierzy kowariancji (zamiast macierzy zbiorczej) dyskryminatorów podczas klasyfikacji . To częściowo rozwiązuje problem, choć mniej skutecznie niż w QDA, ponieważ - jak już wskazano - są to matryce między dyskryminatorami, a nie między pierwotnymi zmiennymi (które matryce różniły się).
Pozwól mi odejść, analizując twoje przykładowe dane dla siebie.
Odpowiedz na odpowiedź i komentarze @ zyxue
LDA jest tym, co zdefiniowałeś FDA jest w twojej odpowiedzi. LDA najpierw wyodrębnia konstrukty liniowe (zwane dyskryminatorami), które maksymalizują odstęp między do wewnątrz, a następnie wykorzystuje je do przeprowadzenia klasyfikacji (gaussowskiej). Gdyby (jak mówisz) LDA nie było związane z zadaniem wyodrębnienia dyskryminujących, LDA wydawałoby się być tylko klasyfikatorem gaussowskim, żadna nazwa „LDA” nie byłaby wcale potrzebna.
Jest to etap klasyfikacji, w którym LDA zakłada zarówno normalność, jak i jednorodność kowariancji wariancjiS.wS.ws są takie same, wspomniane kowariancje wewnątrz klasy są takie same, tożsamość; to prawo do korzystania z nich staje się absolutne).
Klasyfikator Gaussa (drugi etap LDA) wykorzystuje regułę Bayesa do przypisywania obserwacji do klas przez dyskryminujących. Ten sam wynik można osiągnąć za pomocą tak zwanych liniowych funkcji klasyfikacji Fisher, które bezpośrednio wykorzystują oryginalne cechy. Jednak podejście Bayesa oparte na dyskryminatorach jest nieco ogólne, ponieważ pozwoli na użycie oddzielnych macierzy kowariancji dyskryminacji odrębnych klas, oprócz domyślnego sposobu użycia jednej, połączonej. Pozwoli to również oprzeć klasyfikację na podzbiorze osób dyskryminujących.
Gdy są tylko dwie klasy, oba etapy LDA można opisać razem w jednym przejściu, ponieważ „ekstrakcja utajonych” i „klasyfikacja obserwacji” sprowadzają się do tego samego zadania.
Trudno mi zgodzić się, że FDA to LDA dla dwóch klas, jak sugerował @ttnphns.
Polecam dwa bardzo pouczające i piękne wykłady na ten temat autorstwa profesora Ali Ghodsi:
Dla mnie LDA i QDA są podobne, ponieważ oba są technikami klasyfikacji z założeniami Gaussa. Główną różnicą między nimi jest to, że LDA zakłada, że macierze kowariancji cech obu klas są takie same, co skutkuje liniową granicą decyzji. W przeciwieństwie do tego, QDA jest mniej surowa i pozwala na różne macierze kowariancji cech dla różnych klas, co prowadzi do kwadratowej granicy decyzji. Zobacz poniższy rysunek ze scikit-learn, aby dowiedzieć się, jak wygląda kwadratowa granica decyzji.
Kilka komentarzy na temat wątków :
Z drugiej strony FDA to zupełnie inny gatunek, nie mający nic wspólnego z założeniem Gaussiona. To, co FDA próbuje zrobić, to znaleźć transformację liniową, aby zmaksymalizować średnią odległość między klasami, jednocześnie minimalizując wariancję wewnątrz klasy . Drugi wykład pięknie wyjaśnia ten pomysł. W przeciwieństwie do LDA / QDA, FDA nie dokonuje klasyfikacji, chociaż cechy uzyskane po transformacji znalezione przez FDA mogą być wykorzystane do klasyfikacji, np. Przy użyciu LDA / QDA lub SVM lub innych.
źródło
FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classification
, to powiedziałbym, że to, co nazywam „fazą ekstrakcji LDA”. Oczywiście te wyodrębnione funkcje (funkcje dyskryminujące) - możesz używać ich tak, jak chcesz. W standardowej klasyfikacji LDA są one stosowane jako klasyfikatory gaussowskie.