Jeśli mam zestaw danych treningowych i trenuję na nim klasyfikator Naive Bayes i mam wartość atrybutu, która ma prawdopodobieństwo zerowe. Jak sobie z tym poradzić, jeśli chcę później przewidzieć klasyfikację nowych danych? Problem polega na tym, że jeśli w obliczeniach jest zero, cały produkt staje się zerowy, bez względu na to, ile innych wartości mam, które mogłyby znaleźć inne rozwiązanie.
Przykład:
Cały produkt staje się ponieważ w danych treningowych atrybut TimeZone US ma zawsze wartość Tak w naszym małym zestawie danych treningowych. Jak sobie z tym poradzić? Czy powinienem użyć większego zestawu danych treningowych, czy też istnieje inna możliwość rozwiązania tego problemu?
classification
naive-bayes-classifier
delikatny
źródło
źródło
Odpowiedzi:
Podejściem do przezwyciężenia tego „problemu zerowej częstotliwości” w ustawieniu Bayesa jest dodanie jednego do liczby dla każdej kombinacji wartość-klasa atrybutu, gdy wartość atrybutu nie występuje z każdą wartością klasy. Powiedzmy na przykład, że twoje dane treningowe wyglądały tak:
Następnie powinieneś dodać jedną do każdej wartości w tej tabeli, gdy używasz jej do obliczania prawdopodobieństw:
źródło