Jak działa Naive Bayes ze zmiennymi ciągłymi?

14

Według mojego (bardzo podstawowego) zrozumienia Naive Bayes szacuje prawdopodobieństwa na podstawie częstotliwości klasowych każdej cechy w danych treningowych. Ale jak oblicza częstotliwość zmiennych ciągłych? A kiedy przewidujesz, jak klasyfikuje nową obserwację, która może nie mieć takich samych wartości jak żadna obserwacja w zestawie treningowym? Czy używa jakiegoś pomiaru odległości lub znajduje 1NN?

xyy
źródło
Oto porównanie między dyskretnymi i ciągłymi Naive Bayes: datascience.stackexchange.com/a/47031/67328
Esmailian

Odpowiedzi:

10

Istnieje wiele sposobów przeprowadzania naiwnej klasyfikacji Bayesa (NBC). Powszechną techniką w NBC jest przekodowywanie wartości cech (zmiennych) na kwartyle, tak aby wartościom mniejszym niż 25. percentyl przypisano 1, 25 do 50. a 2, 50. do 75. a 3 i większym niż 75. percentyl a 4. W ten sposób pojedynczy obiekt umieści jedną liczbę w pojemniku Q1, Q2, Q3 lub Q4. Obliczenia są wykonywane tylko na tych kategorycznych pojemnikach. Liczby bin (prawdopodobieństwa) są następnie oparte na liczbie próbek, których wartości zmiennych mieszczą się w danym bin. Na przykład, jeśli zbiór obiektów ma bardzo wysokie wartości dla cechy X1, spowoduje to wiele zliczeń bin w bin dla Q4 z X1. Z drugiej strony, jeśli inny zestaw obiektów ma niskie wartości dla cechy X1, wówczas obiekty te zdeponują wiele liczb w koszu dla Q1 cechy X1.

W rzeczywistości nie jest to naprawdę sprytne obliczenie, jest raczej sposobem dyskretyzacji ciągłych wartości w celu ich dyskretyzacji, a następnie wykorzystania. Indeks Gini i przyrost informacji można łatwo obliczyć po dyskretyzacji, aby określić, które funkcje są najbardziej pouczające, tj. Maks. (Gini).

Należy jednak pamiętać, że istnieje wiele sposobów wykonywania NBC, a wiele z nich różni się od siebie. Musisz więc tylko określić, który z nich zaimplementowałeś w rozmowie lub referacie.

wrktsj
źródło
2

Sercem Naive Bayes jest heroiczne warunkowe założenie:

P.(xX,do)=P.(xdo)

xdop(xdo=ja)=ϕ(μja,σja2))

Istnieją różne sposoby oszacowania parametrów, ale zazwyczaj można:

  • Użyj maksymalnego prawdopodobieństwa z danymi oznaczonymi. (W przypadku rozkładu normalnego szacunki maksymalnego prawdopodobieństwa średniej i wariancji są w zasadzie średnią próbą i wariancją próby).
  • Coś w rodzaju algorytmu EM z nieznakowanymi danymi.
Matthew Gunn
źródło