Która funkcja kosztu jest lepsza dla losowego drzewa leśnego: indeks Gini lub entropia?

12

Która funkcja kosztu jest lepsza dla losowego drzewa leśnego: indeks Gini lub entropia?

Próbuję wdrożyć losowy las w Clojure.

Vivek
źródło

Odpowiedzi:

9

Jak znalazłem we wstępie do Data Mining autorstwa Tan et. glin:

Badania wykazały, że wybór miary zanieczyszczenia ma niewielki wpływ na działanie algorytmów indukcyjnych drzewa decyzyjnego. Wynika to z faktu, że wiele środków dotyczących zanieczyszczenia jest ze sobą całkiem spójnych [...]. Rzeczywiście, strategia zastosowana do przycinania drzewa ma większy wpływ na końcowe drzewo niż wybór miary zanieczyszczenia.

Dlatego możesz wybrać użycie indeksu Gini, takiego jak CART lub Entropy, takiego jak C4.5.

Użyłbym Entropy, a dokładniej współczynnika wzmocnienia C4.5, ponieważ można łatwo śledzić dobrze napisaną książkę Quinlan: C4.5 Programy do uczenia maszynowego.

Simone
źródło
3
Mała uwaga - entropia używa dzienników, co może być problemem obliczeniowym.
8
Ta uwaga dotyczy czystych drzew decyzyjnych, a nie przypadkowych lasów. Zazwyczaj nie przycina się drzewa w losowym lesie, ponieważ nie próbuje się zbudować najlepszego drzewa. Mówienie o tym, co jest ważniejsze: przycinaniu lub mierzeniu zanieczyszczenia, wydaje się więc mylące. Celem jest znalezienie najlepszego drzewa do użycia z losowym lasem.
Chan-Ho Suh,