Liniowa analiza dyskryminacyjna i reguła Bayesa: klasyfikacja

Klasyfikacja w LDA przebiega następująco (podejście Bayesa). [O wydobyciu dyskryminujących można zajrzeć tutaj .]

Zgodnie z twierdzeniem Bayesa poszukiwane prawdopodobieństwo, że mamy do czynienia z klasą , obserwując obecnie punkt to , gdzie $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

$P(k)$ - bezwarunkowe (tło) prawdopodobieństwo klasy ; - bezwarunkowe (tło) prawdopodobieństwo punktu ; - prawdopodobieństwo obecności punktu w klasie , jeżeli zajęta klasa to . $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

„Obserwując obecnie punkt ” będący warunkiem podstawowym, , a zatem mianownik można pominąć. Zatem . $x$ $P(x)=1$ $P(k|x) = P(k)*P(x|k)$

$P(k)$ oznacza wcześniejsze (przedanalityczne) prawdopodobieństwo, że natywną klasą dla jest ; określa użytkownik. Zwykle domyślnie wszystkie klasy otrzymują równe = 1 / liczba_klas. Aby obliczyć , tj. Prawdopodobieństwo (post-analityczne), że natywną klasą dla jest , należy znać . $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ $P(x|k)$

$P(x|k)$ - prawdopodobieństwo per se - nie można znaleźć, dla dyskryminatorów głównym problemem LDA są zmienne ciągłe, a nie dyskretne. Ilość wyrażająca w tym przypadku i proporcjonalna do niej to gęstość prawdopodobieństwa (funkcja PDF). Niniejszym musimy obliczyć PDF dla punktu w klasie , , w wymiarowym rozkładzie normalnym utworzonym przez wartości dyskryminatorów. [Zobacz normalna dystrybucja wielowymiarowa Wikipedii] $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

gdzie - kwadratowa odległość Mahalanobisa [patrz Wikipedia Mahalanobisa odległość] w przestrzeni dyskryminatorów od punktu do centroidu klasy; - macierz kowariancji między dyskryminatorami , obserwowana w tej klasie. $d$ $x$ $\bf S$

Oblicz w ten sposób dla każdej z klas. dla punktu i klasy wyrażają dla nas poszukiwany . Ale z powyższą rezerwą, że PDF sam w sobie nie jest prawdopodobieństwem, tylko proporcjonalnym do niego, powinniśmy znormalizować , dzieląc przez sumę s we wszystkich klasach. Na przykład, jeśli w sumie są 3 klasy, , , , to $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Punkt jest przypisany przez LDA do klasy, dla której jest najwyższy. $x$ $P(k|x)$

Uwaga. To było ogólne podejście. Wiele programów LDA domyślnie korzysta z puli macierzy wewnątrz klasy dla wszystkich klas we wzorze na PDF powyżej. Jeśli tak, to upraszcza wzór kolosalne Ponieważ takie w LDA macierz identyczności (patrz dolny przypis tutaj ), a więc i zamienia kwadrat odległości euklidesowej (Należy pamiętać zbiorcza ciągu klasie którym mówimy, to kowariancje między dyskryminatorami, - nie między zmiennymi wejściowymi, których macierz jest zwykle oznaczana jako ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Dodatek . Zanim powyższa zasada Bayesa została wprowadzona do LDA, Fisher, pionier LDA, zaproponował obliczenie tak zwanych teraz liniowych funkcji klasyfikacji Fishera w celu klasyfikacji punktów w LDA. Dla punktu wynikiem funkcji przynależności do klasy jest kombinacja liniowa , gdzie są zmiennymi predykcyjnymi w analizie. $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ $V1, V2,...V_p$

Współczynnik , oznacza liczbę klas, a jest elementem zbiorczego rozproszenia wewnątrz klasy macierz zmiennych $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

$Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$ .

Punkt zostaje przypisany do klasy, dla której jego wynik jest najwyższy. Wyniki klasyfikacji otrzymane tą metodą Fishera (która omija ekstrakcję dyskryminatorów zaangażowanych w złożoną składową eigend) są identyczne z wynikami uzyskanymi metodą Bayesa tylko wtedy, gdy pula wewnątrzklasowej macierzy kowariancji jest stosowana z metodą Bayesa opartą na dyskryminatorach (patrz „Uwaga” powyżej) i wszystkie dyskryminujące są stosowane w klasyfikacji. Metoda Bayesa jest bardziej ogólna, ponieważ pozwala również na stosowanie oddzielnych macierzy wewnątrz klasy. $x$

ttnphns
źródło

To jest podejście bayesowskie, prawda? Jakie jest do tego podejście Fishera?

zca0,

Dodano do odpowiedzi na twoje żądanie

ttnphns

+1 za rozróżnienie między podejściem Bayesa i Fishera do LDA. Jestem nowicjuszem w LDA, a książki, które czytam, uczą mnie LDA w podejściu Bayesa, który klasyfikuje do klasy o najwyższym , więc muszę obliczyć wszystkie dla każdej klasy , prawda? Podejściem Fishera muszę po prostu dowiedzieć się, jakie są dyskryminatory i odpowiadające im cefe, i nie trzeba obliczać a posteriora dla każdej klasy, prawda?

X

$X$

K

$K$

p (K | X)

$p(K|X)$

p (K | X)

$p(K|X)$

K

$K$

awokado

I myślę, że podejście Bayesa jest bardziej zrozumiałe i dlaczego musimy stosować podejście Fishera?

awokado

Nie potrzebujemy Tylko ze względów historycznych.

ttnphns

Liniowa analiza dyskryminacyjna i reguła Bayesa: klasyfikacja

Odpowiedzi: