Staram się wyczuć, jak LDA „pasuje” do innych nadzorowanych technik uczenia się. Przeczytałem już kilka postów na temat LDA na temat LDA. Znam już perceptron, ale dopiero teraz uczę się LDA.
W jaki sposób LDA „pasuje” do rodziny nadzorowanych algorytmów uczenia się? Jakie mogą być jego wady w porównaniu z innymi metodami i do czego może być lepiej wykorzystywany? Po co korzystać z LDA, skoro można na przykład użyć perceptronu?
Odpowiedzi:
Jak sugeruje AdamO w powyższym komentarzu, tak naprawdę nie można zrobić nic lepszego niż przeczytać Rozdział 4 elementów uczenia statystycznego (który nazywam HTF), który porównuje LDA z innymi liniowymi metodami klasyfikacji, podając wiele przykładów, a także omawia zastosowanie LDA jako techniki redukcji wymiarów w żyłach PCA, która, jak zauważa ttnphns, jest dość popularna.
Z punktu widzenia klasyfikacji myślę, że kluczową różnicą jest to. Wyobraź sobie, że masz dwie klasy i chcesz je rozdzielić. Każda klasa ma funkcję gęstości prawdopodobieństwa. Najlepszą możliwą sytuacją byłoby, gdybyś znał te funkcje gęstości, ponieważ wtedy możesz przewidzieć, do której klasy należałby punkt, oceniając gęstości właściwe dla danej klasy w tym punkcie.
Niektóre rodzaje klasyfikatorów działają poprzez znalezienie aproksymacji do funkcji gęstości klas. LDA jest jednym z nich; przyjmuje założenie, że gęstości są wielowymiarowe normalne z tą samą macierzą kowariancji. To mocne założenie, ale jeśli jest w przybliżeniu prawidłowe, otrzymujesz dobry klasyfikator. Wiele innych klasyfikatorów również przyjmuje takie podejście, ale starają się być bardziej elastyczni niż zakładając normalność. Na przykład patrz strona 108 HTF.
Z drugiej strony, na stronie 210, HTF ostrzega:
Innym podejściem jest po prostu poszukiwanie granicy między dwiema klasami, co robi perceptron. Bardziej wyrafinowaną wersją tego jest maszyna wektora wsparcia. Metody te można także łączyć z dodawaniem funkcji do danych za pomocą techniki zwanej kernelizacją. Nie działa to z LDA, ponieważ nie zachowuje normalności, ale nie stanowi problemu dla klasyfikatora, który szuka tylko oddzielającej hiperpłaszczyzny.
Różnica między LDA a klasyfikatorem, który szuka oddzielającej hiperpłaszczyzny, jest jak różnica między testem t a jakąś nieparamteryczną alternatywą w zwykłych statystykach. Ten drugi jest bardziej niezawodny (na przykład dla wartości odstających), ale ten drugi jest optymalny, jeśli jego założenia są spełnione.
Jeszcze jedna uwaga: warto wspomnieć, że niektórzy ludzie mogą mieć kulturowe powody do korzystania z metod takich jak LDA lub regresja logistyczna, które mogą obowiązkowo wyrzucać tabele ANOVA, testy hipotez i uspokajać takie rzeczy. LDA został wynaleziony przez Fishera; perceptron był pierwotnie modelem neuronu ludzkiego lub zwierzęcego i nie miał żadnego związku ze statystykami. Działa to również w drugą stronę; niektórzy ludzie mogą preferować takie metody, jak obsługa maszyn wektorowych, ponieważ mają one rodzaj najnowocześniejszych narzędzi hipsterskich, z którymi metody XX wieku po prostu nie mogą się równać. To nie znaczy, że są lepsze. (Dobry przykład jest omawiany w Uczeniu maszynowym dla hakerów , jeśli dobrze pamiętam.)
źródło
Dla intuicji rozważ ten przypadek:
Linia reprezentuje „optymalną granicę” między dwiema klasami o i x.
LDA próbuje znaleźć hiperpłaszczyznę, która minimalizuje wariancję międzyklastrową i maksymalizuje wariancję wewnątrzklastrową, a następnie przyjmuje granicę, by być prostopadłą do tej hiperpłaszczyzny. Tutaj prawdopodobnie to nie zadziała, ponieważ klastry mają dużą zmienność w tym samym kierunku.
Z drugiej strony, perceptron może mieć większą szansę na znalezienie dobrej oddzielającej hiperpłaszczyzny.
W przypadku klas, które mają rozkład Gaussa, LDA prawdopodobnie będzie lepiej, ponieważ perceptron znajduje tylko oddzielającą hiperpłaszczyznę, która jest zgodna z danymi, bez dawania gwarancji, którą hiperpłaszczyznę wybierze (może być nieskończona liczba spójnych hiperpłaszczyzn). Jednak bardziej wyrafinowane wersje perceptronu mogą wybrać hiperpłaszczyznę z pewnymi optymalnymi właściwościami, takimi jak maksymalizacja marginesu między klasami (w zasadzie to robią maszyny wektorów pomocniczych).
Zauważ też, że zarówno LDA, jak i perceptron można rozszerzyć na nieliniowe granice decyzyjne za pomocą sztuczki jądra .
źródło
Jedną z największych różnic między LDA a innymi metodami jest to, że jest to tylko technika uczenia maszynowego dla danych, które zakłada się, że są normalnie dystrybuowane. Może to być świetne w przypadku braku danych lub obcięcia, gdzie można użyć algorytmu EM, aby zmaksymalizować prawdopodobieństwo w bardzo dziwnych i / lub interesujących okolicznościach. Zastrzegaj emptor, ponieważ błędne specyfikacje modelu, takie jak dane multimodalne, mogą prowadzić do słabej wydajności przewidywań, w których grupowanie K-oznacza lepiej. Dane multimodalne można również rozliczać za pomocą EM w celu wykrycia ukrytych zmiennych lub grupowania w LDA.
Załóżmy na przykład, że chcesz zmierzyć prawdopodobieństwo wykrycia pozytywnej diagnozy AIDS w ciągu 5 lat na podstawie liczby CD4. Załóżmy ponadto, że nie znasz wartości konkretnego biomarkera, który ma duży wpływ na liczbę CD4 i jest związany z dalszą immunosupresją. Liczba CD4 poniżej 400 jest poniżej dolnej granicy wykrywalności w najbardziej przystępnych testach. Algorytm EM pozwala nam iteracyjnie obliczać LDA i przypisanie biomarkerów oraz średnie i kowariancję dla CD4 dla nieskurczonego DF.
źródło