Dlaczego nikt nie korzysta z bayesowskiego wielomianowego klasyfikatora Naive Bayes?

15

Tak więc w (nienadzorowanym) modelowaniu tekstu Latent Dirichlet Allocation (LDA) to bayesowska wersja probabilistycznej latentnej analizy semantycznej (PLSA). Zasadniczo LDA = PLSA + Dirichlet przed jego parametrami. Rozumiem, że LDA jest teraz algorytmem referencyjnym i jest zaimplementowany w różnych pakietach, podczas gdy PLSA nie powinna już być używana.

Ale w (nadzorowanej) kategoryzacji tekstu moglibyśmy zrobić dokładnie to samo dla wielomianowego klasyfikatora Naive Bayes i umieścić Dirichleta nad parametrami. Ale nie sądzę, żebym kiedykolwiek widział, żeby ktoś to robił, a „wielopunktowa wersja” Naive Bayes wydaje się być wersją zaimplementowaną w większości pakietów. Czy jest jakiś powód tego?

zwykle ja
źródło

Odpowiedzi:

7

Oto niezły artykuł, który omawia niektóre z „systemowych” niedociągnięć klasyfikatora Multinomial Naive Bayes (MNB). Chodzi o to, że możesz poprawić wydajność MNB poprzez kilka poprawek. I wspominają o użyciu (jednolitych) priorów Dirichleta.

Ogólnie rzecz biorąc, jeśli jesteś zainteresowany MNB i jeszcze nie przeczytałeś tego artykułu, zdecydowanie polecam to zrobić.

Znalazłem również towarzyszącą pracę magisterską tej samej osoby / osób, ale jeszcze jej nie przeczytałem. Możesz to sprawdzić.

Zhubarb
źródło
Drugi link jest martwy - prawdopodobnie dspace.mit.edu/handle/1721.1/7074 to aktualna wersja
beldaz
5

Podejrzewam, że większość implementacji NB pozwala na oszacowanie prawdopodobieństw warunkowych z korektą Laplace'a , co daje rozwiązanie MAP dla Bayesowskiego klasyfikatora NB (z konkretnym wcześniejszym Dirichletem). Jak wskazuje @Zhubarb (+1), bayesowskie metody leczenia klasyfikatorów NB zostały już opracowane i wdrożone (praca / prace Renniego są warte przeczytania). Jednak założenie o niezależności NB prawie zawsze jest błędne, w takim przypadku uzależnienie modelu od tego założenia (poprzez pełne traktowanie bayesowskie) może nie być dobrym rozwiązaniem.

Dikran Torbacz
źródło
0

Nie wierzę, że to, co opisujesz, jest prawdą. Modele probabilistyczne dla LDA i MNB są różne.

Jedną z głównych różnic między nimi jest to, że w modelu generatywnym dla LDA, kiedy słowo jest rysowane, najpierw wybierany jest temat dla tego słowa, a następnie słowo z tego rozdziału tematów. Każde słowo w dokumencie można wyciągnąć z innego tematu.

W modelu generatywnym dla MNB dokumentowi przypisana jest jedna klasa, a wszystkie słowa w tym dokumencie są rysowane z (tej samej) dystrybucji dla tej klasy.

Jurgen
źródło