Wdrożenie Naive Bayes

Wdrażam algorytm Naive Bayesa do kategoryzacji tekstu z wygładzaniem Laplaciana. Problem, który mam, polega na tym, że prawdopodobieństwo zbliża się do zera, ponieważ mnożę wiele małych ułamków. Dlatego prawdopodobieństwo ostatecznie daje zero. Jest tak, ponieważ w dokumentach i zestawach szkoleniowych znajduje się kilka słów.

Z tego powodu nie jestem w stanie kategoryzować tekstów. Czy istnieje sposób na obejście tego problemu? Czy robię coś złego w mojej realizacji?

machine-learning natural-language-processing floating-point numerical-algorithms sam
źródło

... Możesz uniknąć arytmetyki zmiennoprzecinkowej.

msdn.microsoft.com/en-us/magazine/jj891056.aspx Tutaj znajdziesz łatwą odpowiedź.

Roshan Mehta

Odpowiedzi:

\log \prod_{i = 1}^{n} p_{i} = \sum_{i = 1}^{n} \log p_{i} .

$\log \prod_{i=1}^n p_i = \sum_{i=1}^n \log p_i.$

$p$ $p_0 \in [1,2)$ $x$ $p = p_0 2^x$

Yuval Filmus
źródło

Warto również zwrócić uwagę na sztuczkę logsumexp w tym kontekście: en.wikipedia.org/wiki/LogSumExp

Bitwise