Jaki jest związek między liniową analizą dyskryminacyjną a regułą Bayesa? Rozumiem, że LDA stosuje się w klasyfikacji, próbując zminimalizować stosunek wariancji wewnątrz grupy i między wariancją grupy, ale nie wiem, w jaki sposób stosuje się w niej zasadę Bayesa.
12
Odpowiedzi:
Klasyfikacja w LDA przebiega następująco (podejście Bayesa). [O wydobyciu dyskryminujących można zajrzeć tutaj .]
Zgodnie z twierdzeniem Bayesa poszukiwane prawdopodobieństwo, że mamy do czynienia z klasą , obserwując obecnie punkt to , gdziex P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )k x P.( k | x ) = P( k ) ∗ P( x | k ) / P( x )
k P ( x ) x P ( x | k ) x k kP.( k ) - bezwarunkowe (tło) prawdopodobieństwo klasy ; - bezwarunkowe (tło) prawdopodobieństwo punktu ; - prawdopodobieństwo obecności punktu w klasie , jeżeli zajęta klasa to .k P.( x ) x P.( x | k ) x k k
„Obserwując obecnie punkt ” będący warunkiem podstawowym, , a zatem mianownik można pominąć. Zatem .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )x P.( x ) = 1 P.( k | x ) = P( k ) ∗ P( x | k )
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P.( k ) oznacza wcześniejsze (przedanalityczne) prawdopodobieństwo, że natywną klasą dla jest ; określa użytkownik. Zwykle domyślnie wszystkie klasy otrzymują równe = 1 / liczba_klas. Aby obliczyć , tj. Prawdopodobieństwo (post-analityczne), że natywną klasą dla jest , należy znać .x k P.( k ) P.( k ) P.( k | x ) x k P.( x | k )
P ( x | k ) x k P D F ( x | k ) p pP.( x | k ) - prawdopodobieństwo per se - nie można znaleźć, dla dyskryminatorów głównym problemem LDA są zmienne ciągłe, a nie dyskretne. Ilość wyrażająca w tym przypadku i proporcjonalna do niej to gęstość prawdopodobieństwa (funkcja PDF). Niniejszym musimy obliczyć PDF dla punktu w klasie , , w wymiarowym rozkładzie normalnym utworzonym przez wartości dyskryminatorów. [Zobacz normalna dystrybucja wielowymiarowa Wikipedii]P(x|k) x k PDF(x|k) p p
gdzie - kwadratowa odległość Mahalanobisa [patrz Wikipedia Mahalanobisa odległość] w przestrzeni dyskryminatorów od punktu do centroidu klasy; - macierz kowariancji między dyskryminatorami , obserwowana w tej klasie.x S.d x S
Oblicz w ten sposób dla każdej z klas. dla punktu i klasy wyrażają dla nas poszukiwany . Ale z powyższą rezerwą, że PDF sam w sobie nie jest prawdopodobieństwem, tylko proporcjonalnym do niego, powinniśmy znormalizować , dzieląc przez sumę s we wszystkich klasach. Na przykład, jeśli w sumie są 3 klasy, , , , toP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k ) ∗ P D F ( x | k ) kPDF(x|k) P(k)∗PDF(x|k) x k P(k)∗P(x|k) P(k)∗PDF(x|k) P(k)∗PDF(x|k) k ml m
Punkt jest przypisany przez LDA do klasy, dla której jest najwyższy.P ( k | x )x P(k|x)
Uwaga. To było ogólne podejście. Wiele programów LDA domyślnie korzysta z puli macierzy wewnątrz klasy dla wszystkich klas we wzorze na PDF powyżej. Jeśli tak, to upraszcza wzór kolosalne Ponieważ takie w LDA macierz identyczności (patrz dolny przypis tutaj ), a więc i zamienia kwadrat odległości euklidesowej (Należy pamiętać zbiorcza ciągu klasie którym mówimy, to kowariancje między dyskryminatorami, - nie między zmiennymi wejściowymi, których macierz jest zwykle oznaczana jako ).S | S | = 1 d S S wS S |S|=1 d S Sw
Dodatek . Zanim powyższa zasada Bayesa została wprowadzona do LDA, Fisher, pionier LDA, zaproponował obliczenie tak zwanych teraz liniowych funkcji klasyfikacji Fishera w celu klasyfikacji punktów w LDA. Dla punktu wynikiem funkcji przynależności do klasy jest kombinacja liniowa , gdzie są zmiennymi predykcyjnymi w analizie.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n y t k V, 1 , V, 2 , . . . V px k bkv1V1x+bkv2V2x+...+Constk V1,V2,...Vp
Współczynnik , oznacza liczbę klas, a jest elementem zbiorczego rozproszenia wewnątrz klasy macierz zmiennych g s v w p Vbkv=(n−g)∑pwsvwV¯kw g svw p V
Punkt zostaje przypisany do klasy, dla której jego wynik jest najwyższy. Wyniki klasyfikacji otrzymane tą metodą Fishera (która omija ekstrakcję dyskryminatorów zaangażowanych w złożoną składową eigend) są identyczne z wynikami uzyskanymi metodą Bayesa tylko wtedy, gdy pula wewnątrzklasowej macierzy kowariancji jest stosowana z metodą Bayesa opartą na dyskryminatorach (patrz „Uwaga” powyżej) i wszystkie dyskryminujące są stosowane w klasyfikacji. Metoda Bayesa jest bardziej ogólna, ponieważ pozwala również na stosowanie oddzielnych macierzy wewnątrz klasy.x
źródło
Załóżmy równe wagi dla dwóch typów błędów w problemie dwóch klas. Załóżmy, że obie klasy mają wielowymiarową gęstość warunkową zmiennych klasyfikacyjnych. Następnie dla każdego obserwowanego wektorax f1(x) f2(x) x f1(x)≥f2(x) f1 f2
źródło