Która funkcja kosztu jest lepsza dla losowego drzewa leśnego: indeks Gini lub entropia?
Próbuję wdrożyć losowy las w Clojure.
Która funkcja kosztu jest lepsza dla losowego drzewa leśnego: indeks Gini lub entropia?
Próbuję wdrożyć losowy las w Clojure.
Jak znalazłem we wstępie do Data Mining autorstwa Tan et. glin:
Badania wykazały, że wybór miary zanieczyszczenia ma niewielki wpływ na działanie algorytmów indukcyjnych drzewa decyzyjnego. Wynika to z faktu, że wiele środków dotyczących zanieczyszczenia jest ze sobą całkiem spójnych [...]. Rzeczywiście, strategia zastosowana do przycinania drzewa ma większy wpływ na końcowe drzewo niż wybór miary zanieczyszczenia.
Dlatego możesz wybrać użycie indeksu Gini, takiego jak CART lub Entropy, takiego jak C4.5.
Użyłbym Entropy, a dokładniej współczynnika wzmocnienia C4.5, ponieważ można łatwo śledzić dobrze napisaną książkę Quinlan: C4.5 Programy do uczenia maszynowego.