LDA vs. perceptron

9

Staram się wyczuć, jak LDA „pasuje” do innych nadzorowanych technik uczenia się. Przeczytałem już kilka postów na temat LDA na temat LDA. Znam już perceptron, ale dopiero teraz uczę się LDA.

W jaki sposób LDA „pasuje” do rodziny nadzorowanych algorytmów uczenia się? Jakie mogą być jego wady w porównaniu z innymi metodami i do czego może być lepiej wykorzystywany? Po co korzystać z LDA, skoro można na przykład użyć perceptronu?

Creatron
źródło
1
Myślę, że możesz mieć wątpliwości co do tego, czym jest nadzorowane uczenie się. K-średnich jest algorytmem uczenia się bez nadzoru. Perceptron jest nadzorowanym algorytmem klasyfikacji uczenia się, który próbuje znaleźć hiperpłaszczyznę oddzielającą obserwacje negatywne od pozytywnych. LDA jest metodą, która może być stosowana do nadzorowanej klasyfikacji, ale jest częściej stosowana do nadzorowanego wyboru funkcji. Zobacz odpowiedź @ AdamO na założenia dotyczące klasyfikatora LDA.
Bitwise
@Bitwise Oops! Nie wiem, dlaczego umieściłem tam środki K. Tak, jest to algorytm bez nadzoru. Usunę go w edycji.
Creatron
@ Bitwise Jeśli chodzi o to, co powiedziałeś o LDA i Perceptron, tak, to mnie dezorientuje. LDA próbuje znaleźć hiperpłaszczyznę, na którą będą rzutowane dane, tak aby zmaksymalizować wariancję między klastrami, jednocześnie minimalizując wariancję wewnątrz klastra. Następnie na granicy masz klasyfikator. Perceptron robi coś podobnego, ponieważ próbuje również znaleźć optymalną hiperpłaszczyznę, aby rozdzielić oznaczone dane. Po co więc stosować jeden na drugim?
Creatron

Odpowiedzi:

15

Jak sugeruje AdamO w powyższym komentarzu, tak naprawdę nie można zrobić nic lepszego niż przeczytać Rozdział 4 elementów uczenia statystycznego (który nazywam HTF), który porównuje LDA z innymi liniowymi metodami klasyfikacji, podając wiele przykładów, a także omawia zastosowanie LDA jako techniki redukcji wymiarów w żyłach PCA, która, jak zauważa ttnphns, jest dość popularna.

Z punktu widzenia klasyfikacji myślę, że kluczową różnicą jest to. Wyobraź sobie, że masz dwie klasy i chcesz je rozdzielić. Każda klasa ma funkcję gęstości prawdopodobieństwa. Najlepszą możliwą sytuacją byłoby, gdybyś znał te funkcje gęstości, ponieważ wtedy możesz przewidzieć, do której klasy należałby punkt, oceniając gęstości właściwe dla danej klasy w tym punkcie.

Niektóre rodzaje klasyfikatorów działają poprzez znalezienie aproksymacji do funkcji gęstości klas. LDA jest jednym z nich; przyjmuje założenie, że gęstości są wielowymiarowe normalne z tą samą macierzą kowariancji. To mocne założenie, ale jeśli jest w przybliżeniu prawidłowe, otrzymujesz dobry klasyfikator. Wiele innych klasyfikatorów również przyjmuje takie podejście, ale starają się być bardziej elastyczni niż zakładając normalność. Na przykład patrz strona 108 HTF.

Z drugiej strony, na stronie 210, HTF ostrzega:

Jeśli ostatecznym celem jest klasyfikacja, to dokładne poznanie gęstości poszczególnych klas może być niepotrzebne, a w rzeczywistości może wprowadzać w błąd.

Innym podejściem jest po prostu poszukiwanie granicy między dwiema klasami, co robi perceptron. Bardziej wyrafinowaną wersją tego jest maszyna wektora wsparcia. Metody te można także łączyć z dodawaniem funkcji do danych za pomocą techniki zwanej kernelizacją. Nie działa to z LDA, ponieważ nie zachowuje normalności, ale nie stanowi problemu dla klasyfikatora, który szuka tylko oddzielającej hiperpłaszczyzny.

Różnica między LDA a klasyfikatorem, który szuka oddzielającej hiperpłaszczyzny, jest jak różnica między testem t a jakąś nieparamteryczną alternatywą w zwykłych statystykach. Ten drugi jest bardziej niezawodny (na przykład dla wartości odstających), ale ten drugi jest optymalny, jeśli jego założenia są spełnione.

Jeszcze jedna uwaga: warto wspomnieć, że niektórzy ludzie mogą mieć kulturowe powody do korzystania z metod takich jak LDA lub regresja logistyczna, które mogą obowiązkowo wyrzucać tabele ANOVA, testy hipotez i uspokajać takie rzeczy. LDA został wynaleziony przez Fishera; perceptron był pierwotnie modelem neuronu ludzkiego lub zwierzęcego i nie miał żadnego związku ze statystykami. Działa to również w drugą stronę; niektórzy ludzie mogą preferować takie metody, jak obsługa maszyn wektorowych, ponieważ mają one rodzaj najnowocześniejszych narzędzi hipsterskich, z którymi metody XX wieku po prostu nie mogą się równać. To nie znaczy, że są lepsze. (Dobry przykład jest omawiany w Uczeniu maszynowym dla hakerów , jeśli dobrze pamiętam.)

Flądrarz
źródło
„niektórzy ludzie mogą preferować takie metody, jak obsługa maszyn wektorowych, ponieważ mają one rodzaj najnowocześniejszych narzędzi hipsterskich, z którymi metody XX wieku po prostu nie mogą się równać”. LOL! Tak prawdziwe. Przy okazji masz talent do wyjaśniania rzeczy bardzo jasno i dokładnie. Dziękuję Ci! Potrzebowałem „mapy”, w jaki sposób wszystko do siebie pasuje, a ty ją dostarczyłeś.
Creatron
2

Dla intuicji rozważ ten przypadek:

wprowadź opis zdjęcia tutaj

Linia reprezentuje „optymalną granicę” między dwiema klasami o i x.

LDA próbuje znaleźć hiperpłaszczyznę, która minimalizuje wariancję międzyklastrową i maksymalizuje wariancję wewnątrzklastrową, a następnie przyjmuje granicę, by być prostopadłą do tej hiperpłaszczyzny. Tutaj prawdopodobnie to nie zadziała, ponieważ klastry mają dużą zmienność w tym samym kierunku.

Z drugiej strony, perceptron może mieć większą szansę na znalezienie dobrej oddzielającej hiperpłaszczyzny.

W przypadku klas, które mają rozkład Gaussa, LDA prawdopodobnie będzie lepiej, ponieważ perceptron znajduje tylko oddzielającą hiperpłaszczyznę, która jest zgodna z danymi, bez dawania gwarancji, którą hiperpłaszczyznę wybierze (może być nieskończona liczba spójnych hiperpłaszczyzn). Jednak bardziej wyrafinowane wersje perceptronu mogą wybrać hiperpłaszczyznę z pewnymi optymalnymi właściwościami, takimi jak maksymalizacja marginesu między klasami (w zasadzie to robią maszyny wektorów pomocniczych).

Zauważ też, że zarówno LDA, jak i perceptron można rozszerzyć na nieliniowe granice decyzyjne za pomocą sztuczki jądra .

Bitowe
źródło
1

Jedną z największych różnic między LDA a innymi metodami jest to, że jest to tylko technika uczenia maszynowego dla danych, które zakłada się, że są normalnie dystrybuowane. Może to być świetne w przypadku braku danych lub obcięcia, gdzie można użyć algorytmu EM, aby zmaksymalizować prawdopodobieństwo w bardzo dziwnych i / lub interesujących okolicznościach. Zastrzegaj emptor, ponieważ błędne specyfikacje modelu, takie jak dane multimodalne, mogą prowadzić do słabej wydajności przewidywań, w których grupowanie K-oznacza lepiej. Dane multimodalne można również rozliczać za pomocą EM w celu wykrycia ukrytych zmiennych lub grupowania w LDA.

Załóżmy na przykład, że chcesz zmierzyć prawdopodobieństwo wykrycia pozytywnej diagnozy AIDS w ciągu 5 lat na podstawie liczby CD4. Załóżmy ponadto, że nie znasz wartości konkretnego biomarkera, który ma duży wpływ na liczbę CD4 i jest związany z dalszą immunosupresją. Liczba CD4 poniżej 400 jest poniżej dolnej granicy wykrywalności w najbardziej przystępnych testach. Algorytm EM pozwala nam iteracyjnie obliczać LDA i przypisanie biomarkerów oraz średnie i kowariancję dla CD4 dla nieskurczonego DF.

AdamO
źródło
Dzięki, Adam, choć teraz jestem bardziej zdezorientowany. :-) Jak LDA jest lepsze / gorsze od powiedzenia Perceptron lub innej nadzorowanej techniki uczenia się? Jeśli chodzi o algo EM, używasz go w zakresie mówiącym, że możesz rozwiązać dla LDA, używając algo EM, prawda?
Creatron
1
@AdamO, chciałbym dodać dla jasności, że LDA, ponieważ technika redukcji danych nie opiera się na normalności, podobnie jak PCA. Normalność w ramach LDA jest założeniem dla 1) testów statystycznych (test M Boxa itp.), 2) klasyfikacji.
ttnphns
@ttnphns zakładając normalność oznacza, że ​​LDA jest techniką ML. ML to dobra rzecz. Szczegółowe ostrzeżenia w przykładzie, o którym wspomniałem, wykorzystują ML do rozwiązywania trudnych problemów. Te rozwiązania byłyby możliwe tylko przy wyrafinowanej symulacji i / lub BŁĘDACH.
AdamO,
@TheGrapeBeyond LDA maksymalizuje odległość Mahala między dwiema grupami. SLP (perceptron jednowarstwowy lub nnet) rysuje hiperpłaszczyznę w przestrzeni cech, która zapewnia maksymalną dokładność klasyfikacji ... Myślę, że. Dobrym miejscem do rozpoczęcia jest czytanie książki Tibs / Hastie. Być może sam będę musiał to wyszczotkować.
AdamO,