Podejścia Bayesa i Fishera do liniowej analizy dyskryminacyjnej

Znam 2 podejścia do zrobienia LDA, podejście bayesowskie i podejście Fishera .

Załóżmy, że mamy dane $(x,y)$ , gdzie $x$ jest predyktorem $p$ wymiarowym, a $y$ jest zmienną zależną $K$ klas

Metodą bayesowską obliczamy tylne

p (y_{k} | x) = \frac{p (x | y_{k}) p (y_{k})}{p (x)} \propto p (x | y_{k}) p (y_{k})

$p(y_k|x)=\frac{p(x|y_k)p(y_k)}{p(x)}\propto p(x|y_k)p(y_k)$ , i jak powiedziano w książkach, zakładamy, że

p (x | y_{k})

$p(x|y_k)$ jest gaussowską, mamy teraz funkcję dyskryminacyjną dla

k

$k$ tej klasy jako

, widzę, że

jest funkcją liniową

, więc dla wszystkichklas

mamy

liniowych funkcji dyskryminacyjnych.

\begin{aligned} f_{k} (x) & = \ln p (x | y_{k}) + \ln p (y_{k}) \\ = \ln [\frac{1}{(2 π)^{p / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ_{k})^{T} Σ^{- 1} (x - μ_{k}))] + \ln p (y_{k}) \\ = x^{T} Σ^{- 1} μ_{k} - \frac{1}{2} μ_{k}^{T} Σ^{- 1} μ_{k} + \ln p (y_{k}) \end{aligned}

$\begin{align*}f_k(x)&=\ln p(x|y_k)+\ln p(y_k)\\&=\ln\left[\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)\right)\right]+\ln p(y_k)\\&=x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+\ln p(y_k)\end{align*}$

f_{k} (x)

$f_k(x)$

x

$x$

K

$K$

K

$K$

Jednak zgodnie z podejściem Fishera staramy się rzutować na przestrzeń wymiarową aby wyodrębnić nowe funkcje, które minimalizują wariancję wewnątrz klasy i maksymalizują wariancję między klasami , powiedzmy, że macierz projekcji to $x$ $(K-1)$ $W$ a każda kolumna jest projekcją kierunek. To podejście bardziej przypomina technikę zmniejszania wymiarów .

Moje pytania są

(1) Czy możemy zredukować wymiary, stosując podejście Bayesa? To znaczy, możemy zastosować podejście bayesowskie do dokonania klasyfikacji, znajdując funkcje dyskryminacyjne które dają największą wartość dla nowego , ale czy te funkcje dyskryminacyjne być użyte do rzutowania $f_k(x)$ $x^*$ $f_k(x)$ $x$ na niższe wymiary podprzestrzeń? Podobnie jak podejście Fishera .

(2) Czy i jak te dwa podejścia odnoszą się do siebie? Nie widzę między nimi żadnej zależności, ponieważ jedna wydaje się być w stanie dokonać klasyfikacji z wartością , a druga ma na celu przede wszystkim redukcję wymiarów. $f_k(x)$

AKTUALIZACJA

Dzięki @amoeba, według książki ESL, znalazłem to: wprowadź opis zdjęcia tutaj

i jest to liniowa funkcja dyskryminacyjna, wyprowadzona z twierdzenia Bayesa plus przy założeniu, że wszystkie klasy mają tę samą macierz kowariancji . I ta funkcja dyskryminacyjna jest taki sam, jak jeden pisałem powyżej. $\Sigma$ $f_k(x)$

Czy mogę użyć jako kierunku rzutowania , aby wykonać redukcję wymiarów? Nie jestem tego pewien, ponieważ od AFAIK redukcję wymiarów uzyskuje się poprzez wykonanie $\Sigma^{-1}\mu_k$ $x$ analizy wariancji pomiędzy .

PONOWNIE AKTUALIZACJA

Z sekcji 4.3.3 wyprowadzono te prognozy:

wprowadź opis zdjęcia tutaj

i oczywiście zakłada wspólną kowariancję między klasami, czyli wspólną macierz kowariancji (dla kowariancji wewnątrz klasy) $W$ , prawda? Mój problem polega na tym, jak obliczyć to z danych? Ponieważ miałbym różnych macierzy kowariancji wewnątrz klasy, gdybym spróbował obliczyć z danych. Więc muszę połączyć wszystkie klasy kowariancji razem do uzyskania jednego wspólnego? $W$ $K$ $W$

discriminant-analysis awokado
źródło

Twoje pytanie łączy dwie rzeczy. Myślę, że nie przetrawiłeś naszej rozmowy nad poprzednim pytaniem. To, co opisujesz jako pierwsze, to bayesowskie podejście do klasyfikacji (nie „bayesowskie podejście do LDA”). To podejście można zastosować (1) z oryginalnymi zmiennymi jako klasyfikatorami lub (2) z dyskryminatorami uzyskanymi w LDA jako klasyfikatory. Jakie jest zatem podejście Fishera?

ttnphns

(Cd.) Cóż, „LDA Fishera” to po prostu LDA z K = 2. Dokonując klasyfikacji w ramach takiej LDA, Fisher wynalazł własne formuły klasyfikacji. Te formuły mogą działać również dla K> 2. Jego metoda klasyfikacji jest obecnie rzadko stosowana, ponieważ podejście Bayesa jest bardziej ogólne.

ttnphns

@ttnphns, powodem, dla którego jestem zdezorientowany, jest to, że prawie każda książka, o której mówiłem, mówi o LDA wykorzystując to bayesowskie podejście, wykładając LDA jako model generatywny, nie wspominają o stosunku wariancji między grupami do vairance grupy .

awokado

@loganecolss: Czy widziałeś poniżej moją odpowiedź? Czy masz jakieś pytania na ten temat? Jestem trochę zdezorientowany, ponieważ myślałem, że wyjaśniłem, o co teraz pytasz w komentarzach. Podejście „między wariancjami” jest matematycznie równoważne z „podejściem bayesowskim” przy założeniu równych kowariancji. Jeśli chcesz, możesz to potraktować jako zaskakujące twierdzenie matematyczne. Dowód znajduje się w książce Hastie, która jest bezpłatnie dostępna online, a także w niektórych innych podręcznikach do nauki maszyn. Nie jestem więc pewien, co może oznaczać „jedyny autentyczny sposób realizacji LDA”; te dwa identyczne sposoby.

ameba

@loganecolss: Uwierz mi, są one równoważne :) Tak, powinieneś być w stanie wyprowadzić prognozy, ale potrzebujesz dodatkowego założenia o równych macierzach kowariancji (jak napisałem w mojej odpowiedzi). Zobacz mój komentarz poniżej.

ameba

Podam tylko krótką nieformalną odpowiedź i odsyłam do sekcji 4.3 elementów statystycznego uczenia się, aby uzyskać szczegółowe informacje.

Aktualizacja: „Elementy” obejmują bardzo szczegółowo dokładnie te pytania, które zadajesz tutaj, w tym to, co napisałeś w aktualizacji. Odpowiednią sekcją jest 4.3, w szczególności 4.3.2–4.3.3.

(2) Czy i jak te dwa podejścia odnoszą się do siebie?

$x$ do środka każdej klasy.

$x$ $x$

Ważnym wnioskiem jest to, że równania znacznie się upraszczają, jeśli założymy, że wszystkie klasy mają identyczną kowariancję [ Aktualizacja: założymy, jeśli założono to przez cały czas, mogło to być częścią nieporozumienia] . W takim przypadku granice decyzji stają się liniowe i dlatego ta procedura nazywa się liniową analizą dyskryminacyjną, LDA.

Potrzebne są pewne manipulacje algebraiczne, aby zdać sobie sprawę, że w tym przypadku formuły faktycznie stają się dokładnie równoważne z tym, co wypracował Fisher stosując swoje podejście. Pomyśl o tym jak o twierdzeniu matematycznym. Zobacz podręcznik Hastie dla całej matematyki.

(1) Czy możemy zredukować wymiary, stosując podejście Bayesa?

Jeśli przez „podejście bayesowskie” masz na myśli radzenie sobie z różnymi macierzami kowariancji w każdej klasie, to nie. Przynajmniej nie będzie to liniowa redukcja wymiarów (w przeciwieństwie do LDA), z powodu tego, co napisałem powyżej.

$\Sigma^{-1} \mu_k$ $k$ $\boldsymbol \Sigma^{-1} \mathbf{M}$ $\mathbf{M}$ $\mu_k$

ameba
źródło

+1. Mógłbym również link do mojej własnej odpowiedzi wspominającej statystyki QDA.stackexchange.com/a/71571/3277 .

ttnphns

X

$X$

Σ

$\boldsymbol \Sigma$

f_{k} (x)

$f_k(x)$

f_{k} (x)

$f_k(x)$

x

$x$

Σ^{- 1} μ_{k}

$\Sigma^{-1}\mu_k$

Aktualizuję swój post, dodając klip z sekcji 4.3

awokado

Podejścia Bayesa i Fishera do liniowej analizy dyskryminacyjnej

Odpowiedzi: