Widziałem tutaj inny wątek , ale nie sądzę, by odpowiedź zaspokoiła faktyczne pytanie. Ciągle czytam, że Naive Bayes jest klasyfikatorem liniowym (np. Tutaj ) (takim, że wyznacza liniową granicę decyzyjną) za pomocą demonstracji logarytmicznych szans.
Symulowałem jednak dwie chmury Gaussa i dopasowałem granicę decyzyjną i otrzymałem wyniki jako takie (biblioteka e1071 wr, przy użyciu naiveBayes ())
Jak widzimy, granica decyzji jest nieliniowa. Czy próbuje powiedzieć, że parametry (prawdopodobieństwa warunkowe) są kombinacją liniową w przestrzeni logów, a nie powiedzieć, że sam klasyfikator oddziela dane liniowo?
classification
naive-bayes
Kevin Pei
źródło
źródło
Odpowiedzi:
Zasadniczo naiwny klasyfikator Bayesa nie jest liniowy, ale jeśli czynniki prawdopodobieństwa pochodzą z rodzin wykładniczych , naiwny klasyfikator Bayesa odpowiada klasyfikatorowi liniowemu w określonej przestrzeni cech. Oto jak to zobaczyć.p(xi∣c)
Możesz napisać dowolny naiwny klasyfikator Bayesa jako *
gdzie jest funkcją logistyczną . Jeśli pochodzi z rodziny wykładniczej, możemy zapisać jakoσ p(xi∣c)
and hence
where
Note that this is similar to logistic regression – a linear classifier – in the feature space defined by theϕi . For more than two classes, we analogously get multinomial logistic (or softmax) regression.
Ifp(xi∣c) is Gaussian, then ϕi(xi)=(xi,x2i) and we should have
assumingp(c=1)=p(c=0)=12 .
*Here is how to derive this result:
źródło
It is linear only if the class conditional variance matrices are the same for both classes. To see this write down the ration of the log posteriors and you'll only get a linear function out of it if the corresponding variances are the same. Otherwise it is quadratic.
źródło
I'd like add one additional point: the reason for some of the confusion rests on what it means to be performing "Naive Bayes classification".
Under the broad topic of "Gaussian Discriminant Analysis (GDA)" there are several techniques: QDA, LDA, GNB, and DLDA (quadratic DA, linear DA, gaussian naive bayes, diagonal LDA). [UPDATED] LDA and DLDA should be linear in the space of the given predictors. (See, e.g., Murphy, 4.2, pg. 101 for DA and pg. 82 for NB. Note: GNB is not necessarily linear. Discrete NB (which uses a multinomial distribution under the hood) is linear. You can also check out Duda, Hart & Stork section 2.6). QDA is quadratic as other answers have pointed out (and which I think is what is happening in your graphic - see below).
These techniques form a lattice with a nice set of constraints on the "class-wise covariance matrices"Σc :
While the docs for e1071 claim that it is assuming class-conditional independence (i.e., GNB), I'm suspicious that it is actually doing QDA. Some people conflate "naive Bayes" (making independence assumptions) with "simple Bayesian classification rule". All of the GDA methods are derived from the later; but only GNB and DLDA use the former.
A big warning, I haven't read the e1071 source code to confirm what it is doing.
źródło