W małym problemie z klasyfikacją tekstu, na który patrzyłem, Naive Bayes wykazywał wydajność podobną lub większą niż SVM i byłem bardzo zdezorientowany.
Zastanawiałem się, jakie czynniki decydują o zwycięstwie jednego algorytmu nad drugim. Czy są sytuacje, w których nie ma sensu używać Naive Bayes zamiast SVM? Czy ktoś może rzucić na to światło?
Odpowiedzi:
Nie ma jednej odpowiedzi, która jest najlepszą metodą klasyfikacji dla danego zestawu danych . W badaniach porównawczych dla danego zestawu danych należy zawsze brać pod uwagę różne rodzaje klasyfikatorów. Biorąc pod uwagę właściwości zestawu danych, możesz mieć pewne wskazówki, które mogą dać pierwszeństwo niektórym metodom. Jednak nadal byłoby wskazane, aby eksperymentować ze wszystkimi, jeśli to możliwe.
Naiwny Bayes Classifier (NBC) i Support Vector Machine (SVM) mają różne opcje, w tym wybór funkcji jądra dla każdej z nich. Oba są wrażliwe na optymalizację parametrów (tzn. Inny wybór parametrów może znacznie zmienić ich wydajność) . Tak więc, jeśli masz wynik wskazujący, że NBC działa lepiej niż SVM. Dotyczy to tylko wybranych parametrów. Jednak w przypadku wyboru innego parametru może się okazać, że SVM działa lepiej.
Zasadniczo, jeśli założenie o niezależności w NBC jest spełnione przez zmienne zestawu danych, a stopień nakładania się klas jest niewielki (tj. Potencjalna liniowa granica decyzji), można oczekiwać, że NBC osiągnie dobre. W przypadku niektórych zestawów danych, z optymalizacją przy użyciu wyboru funkcji opakowania, na przykład NBC może pokonać inne klasyfikatory. Nawet jeśli osiągnie porównywalną wydajność, NBC będzie bardziej pożądana ze względu na wysoką prędkość.
Podsumowując, nie powinniśmy preferować żadnej metody klasyfikacji, jeśli przewyższa ona inne metody w jednym kontekście, ponieważ może poważnie zawieść w innej. ( TO NORMALNE W PROBLEMACH Z WYKOPANIEM DANYCH ).
źródło