Kiedy używać zanieczyszczenia Gini i kiedy korzystać z pozyskiwania informacji?

Powinieneś wypróbować je oba w ramach strojenia parametrów.

Teoretycznie zanieczyszczenie Giniego minimalizuje wynik Briera, podczas gdy entropia / przyrost informacji minimalizuje utratę logów, więc który z interesujących cię robi różnicę. Jednak inne rzeczy, takie jak prawdopodobieństwo, że każde z nich odkryje efekty wielowymiarowe w zachłannym wzroście drzewa, zamiast zostać „rozproszonym” przez jednowymiarowe, które również odgrywają rolę. Tzn. Możesz uzyskać lepszą uogólnienie na podstawie pomiaru zanieczyszczenia, który nie zawsze wybiera „najlepszy” podział.

W praktyce (w kontekście rf, więcej niż koszyk) odkryłem, że entropia działa lepiej dla czystszych zestawów danych o małych wymiarach, w których próbujesz dopasować jak najbardziej złożony sygnał, podczas gdy gini działa lepiej dla hałaśliwych, wysoko wymiarowych takich, w których próbujesz odkryć prosty sygnał spośród wielu hałaśliwych potencjalnych sygnałów. To tylko moje doświadczenie i prawie na pewno nie we wszystkich przypadkach.

Uwaga: początkowo jako komentarz, ale usunięty i przeniesiony do odpowiedzi, aby sformatować rozwinięcie rzeczy.

Ryan Bressler
źródło

Kiedy używać zanieczyszczenia Gini i kiedy korzystać z pozyskiwania informacji?

Odpowiedzi: