Poza oczywistymi cechami klasyfikatora, takimi jak
- koszt obliczeniowy,
- oczekiwane typy danych funkcji / etykiet i
- przydatność do określonych rozmiarów i wymiarów zbiorów danych,
jakich pięciu najlepszych (lub 10, 20?) klasyfikatorów wypróbowuje najpierw na nowym zbiorze danych , o którym jeszcze niewiele wiadomo (np. semantyka i korelacja poszczególnych cech)? Zwykle wypróbowuję Naive Bayes, Nearest Neighbor, drzewo decyzyjne i SVM - chociaż nie mam żadnego dobrego powodu do tego wyboru, poza tym, że je znam i w większości rozumiem, jak działają.
Myślę, że należy wybrać klasyfikatory, które obejmują najważniejsze ogólne podejścia klasyfikacyjne. Który wybór poleciłbyś według tego kryterium lub z innego powodu?
AKTUALIZACJA: Alternatywnym sformułowaniem tego pytania może być: „Jakie są ogólne podejścia do klasyfikacji i jakie konkretne metody obejmują te najważniejsze / popularne / obiecujące?”
źródło
Odpowiedzi:
Losowy las
Szybka, solidna, dobra dokładność, w większości przypadków nic nie dostrajania, nie wymaga normalizacji, odporna na kolinearność, generuje całkiem dobre przybliżenie błędów i przydatny ranking ważności jako efekt uboczny treningu, trywialnie równoległy, przewiduje w mgnieniu oka.
Wady: wolniejsze niż trywialne metody, takie jak kNN lub NB, działają najlepiej z równymi klasami, gorsza dokładność niż SVM w przypadku problemów desperacko wymagających sztuczki jądra, jest twardą czarną skrzynką, nie robi kawy.
źródło
Klasyfikator procesu Gaussa (nie wykorzystujący aproksymacji Laplace'a), najlepiej z marginalizacją zamiast optymalizacji hiperparametrów. Czemu?
Wady
Pierwszym wyborem będzie jednak regaryzowana regresja logistyczna lub regresja kalenicowa [bez wyboru funkcji] - w przypadku większości problemów bardzo proste algorytmy działają raczej dobrze i trudniej je pomylić (w praktyce różnice w wydajności między algorytmami są mniejsze niż różnice w wydajności między operatorem je prowadzącym).
źródło
Sam, gdy zbliżasz się do nowego zestawu danych, powinieneś zacząć obserwować cały problem. Przede wszystkim uzyskaj rozkład dla cech jakościowych oraz średnich i standardowych odchyleń dla każdej cechy ciągłej. Następnie:
Następnie zwykle dzielę techniki klasyfikacji na 2 zestawy: technikę białej skrzynki i czarną skrzynkę. Jeśli chcesz wiedzieć, jak działa klasyfikator, powinieneś wybrać w pierwszym zestawie, np. Drzewa decyzyjne lub klasyfikatory oparte na regułach.
Jeśli musisz sklasyfikować nowe rekordy bez budowania modelu, powinieneś spojrzeć na chętnego ucznia, np. KNN.
Po tym myślę, że lepiej jest mieć próg między dokładnością a prędkością: Sieć neuronowa jest nieco wolniejsza niż SVM.
Oto moja pierwsza pięć technik klasyfikacji:
źródło