Liniowa analiza dyskryminacyjna i reguła Bayesa: klasyfikacja

12

Jaki jest związek między liniową analizą dyskryminacyjną a regułą Bayesa? Rozumiem, że LDA stosuje się w klasyfikacji, próbując zminimalizować stosunek wariancji wewnątrz grupy i między wariancją grupy, ale nie wiem, w jaki sposób stosuje się w niej zasadę Bayesa.

zca0
źródło
Funkcje dyskryminacyjne są wyodrębniane, aby zmaksymalizować zmienność międzygrupową do zmienności wewnątrzgrupowej. Nie ma to nic wspólnego z klasyfikacją, która jest drugim i niezależnym etapem LDA.
ttnphns

Odpowiedzi:

16

Klasyfikacja w LDA przebiega następująco (podejście Bayesa). [O wydobyciu dyskryminujących można zajrzeć tutaj .]

Zgodnie z twierdzeniem Bayesa poszukiwane prawdopodobieństwo, że mamy do czynienia z klasą , obserwując obecnie punkt to , gdziex P ( k | x ) = P ( k ) P ( x | k ) / P ( x )kxP(k|x)=P(k)P(x|k)/P(x)

k P ( x ) x P ( x | k ) x k kP(k) - bezwarunkowe (tło) prawdopodobieństwo klasy ; - bezwarunkowe (tło) prawdopodobieństwo punktu ; - prawdopodobieństwo obecności punktu w klasie , jeżeli zajęta klasa to .kP(x)xP(x|k)xkk

„Obserwując obecnie punkt ” będący warunkiem podstawowym, , a zatem mianownik można pominąć. Zatem .P ( x ) = 1 P ( k | x ) = P ( k ) P ( x | k )xP(x)=1P(k|x)=P(k)P(x|k)

x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) oznacza wcześniejsze (przedanalityczne) prawdopodobieństwo, że natywną klasą dla jest ; określa użytkownik. Zwykle domyślnie wszystkie klasy otrzymują równe = 1 / liczba_klas. Aby obliczyć , tj. Prawdopodobieństwo (post-analityczne), że natywną klasą dla jest , należy znać .xkP(k)P(k)P(k|x)xkP(x|k)

P ( x | k ) x k P D F ( x | k ) p pP(x|k) - prawdopodobieństwo per se - nie można znaleźć, dla dyskryminatorów głównym problemem LDA są zmienne ciągłe, a nie dyskretne. Ilość wyrażająca w tym przypadku i proporcjonalna do niej to gęstość prawdopodobieństwa (funkcja PDF). Niniejszym musimy obliczyć PDF dla punktu w klasie , , w wymiarowym rozkładzie normalnym utworzonym przez wartości dyskryminatorów. [Zobacz normalna dystrybucja wielowymiarowa Wikipedii]P(x|k)xkPDF(x|k)pp

PDF(x|k)=ed/2(2π)p/2|S|)

gdzie - kwadratowa odległość Mahalanobisa [patrz Wikipedia Mahalanobisa odległość] w przestrzeni dyskryminatorów od punktu do centroidu klasy; - macierz kowariancji między dyskryminatorami , obserwowana w tej klasie.x S.dxS

Oblicz w ten sposób dla każdej z klas. dla punktu i klasy wyrażają dla nas poszukiwany . Ale z powyższą rezerwą, że PDF sam w sobie nie jest prawdopodobieństwem, tylko proporcjonalnym do niego, powinniśmy znormalizować , dzieląc przez sumę s we wszystkich klasach. Na przykład, jeśli w sumie są 3 klasy, , , , toP ( k ) P D F ( x | k ) x k P ( k ) P ( x | k ) P ( k ) P D F ( x | k ) P ( k ) P D F ( x | k ) kPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)P(k)PDF(x|k)P(k)PDF(x|k)kmlm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

Punkt jest przypisany przez LDA do klasy, dla której jest najwyższy.P ( k | x )xP(k|x)

Uwaga. To było ogólne podejście. Wiele programów LDA domyślnie korzysta z puli macierzy wewnątrz klasy dla wszystkich klas we wzorze na PDF powyżej. Jeśli tak, to upraszcza wzór kolosalne Ponieważ takie w LDA macierz identyczności (patrz dolny przypis tutaj ), a więc i zamienia kwadrat odległości euklidesowej (Należy pamiętać zbiorcza ciągu klasie którym mówimy, to kowariancje między dyskryminatorami, - nie między zmiennymi wejściowymi, których macierz jest zwykle oznaczana jako ).S | S | = 1 d S S wSS|S|=1dSSw

Dodatek . Zanim powyższa zasada Bayesa została wprowadzona do LDA, Fisher, pionier LDA, zaproponował obliczenie tak zwanych teraz liniowych funkcji klasyfikacji Fishera w celu klasyfikacji punktów w LDA. Dla punktu wynikiem funkcji przynależności do klasy jest kombinacja liniowa , gdzie są zmiennymi predykcyjnymi w analizie.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n y t k V, 1 , V, 2 , . . . V pxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp

Współczynnik , oznacza liczbę klas, a jest elementem zbiorczego rozproszenia wewnątrz klasy macierz zmiennych g s v w p Vbkv=(ng)wpsvwV¯kwgsvwp V

Constk=log(P(k))(vpbkvV¯kv)/2 .

Punkt zostaje przypisany do klasy, dla której jego wynik jest najwyższy. Wyniki klasyfikacji otrzymane tą metodą Fishera (która omija ekstrakcję dyskryminatorów zaangażowanych w złożoną składową eigend) są identyczne z wynikami uzyskanymi metodą Bayesa tylko wtedy, gdy pula wewnątrzklasowej macierzy kowariancji jest stosowana z metodą Bayesa opartą na dyskryminatorach (patrz „Uwaga” powyżej) i wszystkie dyskryminujące są stosowane w klasyfikacji. Metoda Bayesa jest bardziej ogólna, ponieważ pozwala również na stosowanie oddzielnych macierzy wewnątrz klasy.x

ttnphns
źródło
To jest podejście bayesowskie, prawda? Jakie jest do tego podejście Fishera?
zca0,
1
Dodano do odpowiedzi na twoje żądanie
ttnphns
+1 za rozróżnienie między podejściem Bayesa i Fishera do LDA. Jestem nowicjuszem w LDA, a książki, które czytam, uczą mnie LDA w podejściu Bayesa, który klasyfikuje do klasy o najwyższym , więc muszę obliczyć wszystkie dla każdej klasy , prawda? Podejściem Fishera muszę po prostu dowiedzieć się, jakie są dyskryminatory i odpowiadające im cefe, i nie trzeba obliczać a posteriora dla każdej klasy, prawda? K p ( K | X ) p ( K | X ) KXKp(K|X)p(K|X)K
awokado
I myślę, że podejście Bayesa jest bardziej zrozumiałe i dlaczego musimy stosować podejście Fishera?
awokado
Nie potrzebujemy Tylko ze względów historycznych.
ttnphns
1

Załóżmy równe wagi dla dwóch typów błędów w problemie dwóch klas. Załóżmy, że obie klasy mają wielowymiarową gęstość warunkową zmiennych klasyfikacyjnych. Następnie dla każdego obserwowanego wektoraxf1(x)f2(x)xf1(x)f2(x)f1f2

Michael R. Chernick
źródło