Studiuję analizę dyskryminacyjną, ale trudno mi pogodzić kilka różnych wyjaśnień. Wydaje mi się, że czegoś mi brakuje, ponieważ nigdy wcześniej nie spotkałem się z takim (pozornym) poziomem rozbieżności. Biorąc to pod uwagę, liczba pytań dotyczących analizy dyskryminacyjnej na tej stronie wydaje się świadczyć o jej złożoności.
LDA i QDA dla kilku klas
Moją główną książką jest Johnson & Wichern Applied Multivariate Statistics Analysis (AMSA) i notatki mojego nauczyciela oparte na tym. Zignoruję ustawienie dwóch grup, ponieważ uważam, że uproszczona formuła w tym ustawieniu powoduje przynajmniej pewne zamieszanie. Według tego źródła LDA i QDA są zdefiniowane jako parametryczne (przy założeniu normalności wielowymiarowej) rozszerzenie reguły klasyfikacji na podstawie oczekiwanego kosztu błędnej klasyfikacji (ECM). ECM sumuje ponad warunkowy oczekiwany koszt sklasyfikowania nowej obserwacji x do dowolnej grupy (uwzględniając koszty błędnej klasyfikacji i wcześniejsze prawdopodobieństwa) i wybieramy regiony klasyfikacji, które to minimalizują. gdzie
Podobno ta reguła klasyfikacji jest równoważna z „tą, która maksymalizuje prawdopodobieństwa a posteriori” (sic AMSA), co mogę jedynie założyć o podejściu Bayesa, o którym wspominałem. Czy to jest poprawne? I czy ECM jest starszą metodą, ponieważ nigdy nie widziałem, aby występowała nigdzie indziej.
W przypadku normalnych populacji ta zasada upraszcza się do kwadratowego wyniku dyskryminującego: .
Wydaje się to równoważne formule 4.12 Statystycznego uczenia się (ESL) na stronie 110, chociaż opisują ją raczej jako kwadratową funkcję dyskryminacyjną niż wynik . Co więcej, przybywają tutaj poprzez logarytmiczny stosunek wielowymiarowych gęstości (4.9). Czy to kolejna nazwa podejścia Bayesa?
Kiedy zakładamy równą kowariancję, formuła upraszcza jeszcze bardziej wynik liniowej dyskryminacji .
Ta formuła różni się od ESL (4.10), gdzie pierwszy termin jest odwrócony: . Wersja ESL jest również wymieniony w Statistical Learning w R . Ponadto w danych wyjściowych SAS przedstawionych w AMSA opisano liniową funkcję dyskryminacyjną składającą się ze stałej i współczynnik wektor , pozornie zgodny z wersją ESL.
Co może być przyczyną tej rozbieżności?
Dyskryminatory i metoda Fishera
Uwaga: jeśli to pytanie zostanie uznane za zbyt duże, usunę tę sekcję i otworzę nowe pytanie, ale opiera się ono na poprzedniej sekcji. Przepraszam za ścianę tekstu, niezależnie od tego, starałem się jakoś ją trochę ustrukturyzować, ale jestem pewien, że moje zamieszanie związane z tą metodą doprowadziło do dość dziwnych skoków logiki.
Książka AMSA opisuje dalej metodę Fishera, również dla kilku grup. Jednak ttnphns wskazał kilka razy , że FDA jest po prostu LDA z dwóch grup. Czym jest ta wielopłaszczyznowa FDA? Być może FDA może mieć wiele znaczeń?
AMSA opisuje dyskryminatorów Fishera jako wektory własne które maksymalizują stosunek . Kombinacje liniowe są wówczas przykładowymi dyskryminatorami (których jest ). Do klasyfikacji wybieramy grupę k o najmniejszej wartości dla gdzie r to liczba czynników dyskryminujących, których chcielibyśmy użyć. Jeśli użyjemy wszystkich dyskryminatorów, reguła ta byłaby równoważna liniowej funkcji dyskryminacyjnej.
Wiele wyjaśnień dotyczących LDA wydaje się opisywać metodologię zwaną FDA w książce AMSA, tj. Zaczynając od tego aspektu pomiędzy / w obrębie zmienności. Co zatem oznacza FDA, jeśli nie rozkład macierzy BW?
Po raz pierwszy w książce wspomniano o aspekcie redukcji wymiarów analizy dyskryminacyjnej, podczas gdy kilka odpowiedzi na tej stronie podkreśla dwustopniowy charakter tej techniki, ale nie jest to jasne w przypadku dwóch grup, ponieważ jest tylko 1 dyskryminujący. Biorąc pod uwagę powyższą formułę dla wieloklasowych LDA i QDA, nadal nie jest dla mnie jasne, gdzie pojawiają się dyskryminatorzy.
Ten komentarz szczególnie wprawił mnie w zakłopotanie, zauważając, że klasyfikacja Bayesa może być zasadniczo wykonana na zmiennych pierwotnych. Ale jeśli FDA i LDA są matematycznie równoważne, jak wskazano w książce i tutaj , to czy redukcja wymiarów nie powinna być nieodłączną funkcją funkcji ? Sądzę, że właśnie do tego odnosi się ten ostatni link, ale nie jestem do końca pewien.
Notatki z kursu mojego nauczyciela wyjaśniają, że FDA jest zasadniczo formą kanonicznej analizy korelacji. Znalazłem tylko 1 inne źródło, które mówi o tym aspekcie, ale znów wydaje się, że jest ściśle związane z podejściem Fishera polegającym na rozkładaniu zmienności między i wewnątrz. SAS przedstawia wynik w procedurze LDA / QDA (DISCRIM), który najwyraźniej jest powiązany z metodą Fishera ( https://stats.stackexchange.com/a/105116/62518 ). Jednak opcja FDA SAS (CANDISC) zasadniczo dokonuje korelacji kanonicznej, nie przedstawiając tak zwanych współczynników klasyfikacji Fishera. Przedstawia surowe współczynniki kanoniczne, które moim zdaniem są równoważne wektorom własnym W-1B R uzyskanym przez lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Współczynniki klasyfikacji wydają się być uzyskane z funkcji dyskryminacyjnej, którą opisałem w mojej sekcji LDA i QDA (ponieważ na populację przypada 1 funkcja i wybieramy największą).
Byłbym wdzięczny za wszelkie wyjaśnienia lub odniesienia do źródeł, które mogłyby pomóc mi zobaczyć las przez drzewa. Główną przyczyną mojego pomieszania wydaje się to, że różne podręczniki nazywają metody różnymi nazwami lub przedstawiają niewielką zmienność matematyki, nie uznając innych możliwości, chociaż sądzę, że nie powinno to dziwić, biorąc pod uwagę wiek książki AMSA .
If we use all the discriminants this rule would be equivalent to the linear discriminant function
Niejasny. „Dyskryminacja” i „funkcja dyskryminacji” są synonimami. Możesz użyć wszystkich dyskryminujących lub tylko kilku najsilniejszych / znaczących z nich. Nie sięgnąłem po książkę AMSA, ale podejrzewam, że dla autorów FDA = LDA. Właściwie osobiście uważam, że „Fisher LDA” byłby nadwyżką, niepotrzebnym terminem.Extract the discriminants -> classify by them all (using Bayes approach, as usual)
gdy, jak zwykle domyślnie, w klasyfikacji stosuje się pulę wewnątrzklasowej macierzy kowariancji czynników dyskryminujących.W^-1B
a następnie wykonywania „Bayesa”. Jest to równoważne, ale jest mniej elastyczne (nie można wybrać tylko kilku dyskryminatorów, nie można używać oddzielnych macierzy kowariancji przy klasyfikacji itp.).Odpowiedzi:
Odnoszę się tylko do jednego aspektu pytania i robię to intuicyjnie bez algebry.
Jeśli klasy mają te same macierze wariancji-kowariancji i różnią się jedynie przesunięciem ich centroidów w przestrzeni wymiarowej, wówczas są one całkowicie liniowo rozdzielalne w „podprzestrzeni” . To właśnie robi LDA. Wyobraź sobie, że masz trzy identyczne elipsoidy w przestrzeni zmiennych . Musisz wykorzystać informacje ze wszystkich zmiennych, aby bezbłędnie przewidzieć członkostwo w klasie. Ale z uwagi na fakt, że były to chmury o identycznych rozmiarach i orientacji, można je przeskalować za pomocą wspólnej transformacji w kule o promieniu jednostkowym. Następnieg p q=min(g−1,p) V1,V2,V3 q=g−1=2 niezależne wymiary będą wystarczające, aby przewidzieć członkostwo w klasie tak dokładnie jak wcześniej. Wymiary te nazywane są funkcjami dyskryminacyjnymi . Mając 3 kulek tej samej wielkości, potrzebujesz tylko 2 linii osiowych i aby poznać współrzędne centrów kulek, aby poprawnie przypisać każdy punkt.D1,D2
Dyskryminatory to zmienne nieskorelowane, ich macierze kowariancji wewnątrz klasy są idealnie identyczne (kule). Dyskryminatory tworzą podprzestrzeń pierwotnej przestrzeni zmiennych - są to ich kombinacje liniowe. Nie są to jednak osie zbliżone do obrotu (podobne do PCA): widziane w przestrzeni pierwotnych zmiennych, dyskryminatory jako osie nie są wzajemnie ortogonalne .
Tak więc, przy założeniu jednorodności wewnątrzklasowych wariancji-kowariancji wariancji LDA przy zastosowaniu do klasyfikacji wszystkie istniejące dyskryminatory nie są gorsze niż natychmiastowa klasyfikacja według zmiennych pierwotnych. Ale nie musisz używać wszystkich dyskryminujących. Możesz użyć tylko pierwszego najsilniejszego / statystycznie istotnego z nich. W ten sposób tracisz minimalną ilość informacji potrzebnych do sklasyfikowania, a błędna klasyfikacja będzie minimalna. Patrząc z tej perspektywy, LDA jest redukcją danych podobną do PCA, tylko nadzorowaną.m<q
Zauważ, że przy założeniu jednorodności (+ normalność wielowymiarowa) i pod warunkiem, że planujesz używać, ale wszystkie dyskryminujące czynniki w klasyfikacji, można ominąć ekstrakcję samych dyskryminujących - co wiąże się z uogólnionym problemem własnym - i obliczyć tak zwane „funkcje klasyfikacyjne Fishera” bezpośrednio z zmiennych, w celu sklasyfikowania z nich , przy takich samych wyników. Tak więc, gdy klasy mają identyczny kształt, moglibyśmy uznać zmienne wejściowe lub funkcje Fishera lub dyskryminatorów jako wszystkie równoważne zestawy „klasyfikatorów”. Ale osoby dyskryminujące są pod wieloma względami wygodniejsze.g p g q 1
Ponieważ zazwyczaj klasy nie są w rzeczywistości „identycznymi elipsami”, klasyfikacja według dyskryminujących jest nieco gorsza niż w przypadku klasyfikacji Bayesa według wszystkich oryginalnych zmiennych . Na przykład na tym wykresie dwie elipsoidy nie są do siebie równoległe; i można pojąć wizualnie, że pojedynczy istniejący czynnik dyskryminujący nie wystarczy, aby klasyfikować punkty tak dokładnie, jak pozwalają na to dwie zmienne. QDA (kwadratowa analiza dyskryminacyjna) byłaby wówczas o krok lepszym przybliżeniem niż LDA. Praktyczne podejście w połowie drogi pomiędzy LDA i QDA jest użycie LDA wyróżniki ale użyć na obserwowane, ich macierze kowariancji oddzielne klasy w klasyfikacji ( patrz , patrzq p ) zamiast ich puli macierzy (która jest tożsamością).
(I tak, LDA można postrzegać jako ściśle związane, nawet z konkretnym przypadkiem analizy MANOVA i analizy kanonicznej lub regresji wielowymiarowej regresji o zmniejszonym stopniu - patrz , patrz , patrz .)
źródło