Według mojego (bardzo podstawowego) zrozumienia Naive Bayes szacuje prawdopodobieństwa na podstawie częstotliwości klasowych każdej cechy w danych treningowych. Ale jak oblicza częstotliwość zmiennych ciągłych? A kiedy przewidujesz, jak klasyfikuje nową obserwację, która może nie mieć takich samych wartości jak żadna obserwacja w zestawie treningowym? Czy używa jakiegoś pomiaru odległości lub znajduje 1NN?
14
Odpowiedzi:
Istnieje wiele sposobów przeprowadzania naiwnej klasyfikacji Bayesa (NBC). Powszechną techniką w NBC jest przekodowywanie wartości cech (zmiennych) na kwartyle, tak aby wartościom mniejszym niż 25. percentyl przypisano 1, 25 do 50. a 2, 50. do 75. a 3 i większym niż 75. percentyl a 4. W ten sposób pojedynczy obiekt umieści jedną liczbę w pojemniku Q1, Q2, Q3 lub Q4. Obliczenia są wykonywane tylko na tych kategorycznych pojemnikach. Liczby bin (prawdopodobieństwa) są następnie oparte na liczbie próbek, których wartości zmiennych mieszczą się w danym bin. Na przykład, jeśli zbiór obiektów ma bardzo wysokie wartości dla cechy X1, spowoduje to wiele zliczeń bin w bin dla Q4 z X1. Z drugiej strony, jeśli inny zestaw obiektów ma niskie wartości dla cechy X1, wówczas obiekty te zdeponują wiele liczb w koszu dla Q1 cechy X1.
W rzeczywistości nie jest to naprawdę sprytne obliczenie, jest raczej sposobem dyskretyzacji ciągłych wartości w celu ich dyskretyzacji, a następnie wykorzystania. Indeks Gini i przyrost informacji można łatwo obliczyć po dyskretyzacji, aby określić, które funkcje są najbardziej pouczające, tj. Maks. (Gini).
Należy jednak pamiętać, że istnieje wiele sposobów wykonywania NBC, a wiele z nich różni się od siebie. Musisz więc tylko określić, który z nich zaimplementowałeś w rozmowie lub referacie.
źródło
Sercem Naive Bayes jest heroiczne warunkowe założenie:
Istnieją różne sposoby oszacowania parametrów, ale zazwyczaj można:
źródło