Czy ktoś może praktycznie wyjaśnić uzasadnienie nieczystości Giniego w stosunku do zdobywania informacji (na podstawie Entropii)?
Której metryki lepiej użyć w różnych scenariuszach podczas korzystania z drzew decyzyjnych?
machine-learning
decision-trees
Krish Mahajan
źródło
źródło
Odpowiedzi:
Zanieczyszczenie Gini i Entropia zdobywania informacji są prawie takie same. Ludzie używają tych wartości zamiennie. Poniżej znajdują się formuły obu:
Gdybym miał wybór, użyłbym nieczystości Giniego, ponieważ nie wymaga to ode mnie obliczania funkcji logarytmicznych, które są intensywne obliczeniowo. Można również znaleźć zamkniętą formę jego rozwiązania.
Zanieczyszczenie Giniego z wyżej wymienionych powodów.
Tak, są one prawie takie same, jeśli chodzi o analityce koszyka.
Pomocne odniesienie do obliczeniowego porównania dwóch metod
źródło
Zasadniczo wydajność nie ulegnie zmianie, niezależnie od tego, czy użyjesz zanieczyszczenia Gini, czy Entropy.
Laura Elena Raileanu i Kilian Stoffel porównali oba w „ Teoretycznym porównaniu indeksu Gini z kryteriami pozyskiwania informacji ”. Najważniejsze uwagi to:
Powiedziano mi kiedyś, że oba wskaźniki istnieją, ponieważ pojawiły się w różnych dyscyplinach nauki.
źródło
W przypadku zmiennej o dwóch wartościach, pojawiającej się z ułamkami f i (1-f),
gini i entropia są podane przez:
gini = 2 * f (1-f)
entropia = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Miary te są bardzo podobne, jeśli są skalowane do 1,0 (wykreślanie 2 * gini i entropii / ln (2)):
źródło
Gini ma zminimalizować błędną klasyfikację
Entropia służy do analizy eksploracyjnej
źródło
Ostatecznie, jak wyjaśniono @NIMISHAN, Gini jest bardziej odpowiedni, aby zminimalizować błędne klasyfikowanie, ponieważ jest symetryczny do 0,5, podczas gdy entropia będzie bardziej karana za małe prawdopodobieństwo.
źródło
Entropia zajmuje nieco więcej czasu obliczeniowego niż Indeks Gini ze względu na obliczanie dziennika, może dlatego Indeks Gini stał się domyślną opcją dla wielu algorytmów ML. Ale od Tan i in. al book Wprowadzenie do Data Mining
„Miara zanieczyszczeń jest ze sobą dość spójna ... Rzeczywiście strategia zastosowana do przycinania drzewa ma większy wpływ na końcowe drzewo niż wybór miary zanieczyszczenia”.
Wygląda więc na to, że wybór miary zanieczyszczenia ma niewielki wpływ na wydajność algorytmów pojedynczego drzewa decyzyjnego.
Również. „Metoda Gini działa tylko wtedy, gdy zmienna docelowa jest zmienną binarną.” - Nauka analizy predykcyjnej za pomocą języka Python.
źródło
Przez ostatni tydzień robiłem optymalizacje klasyfikacji binarnej i w każdym przypadku entropia znacznie przewyższa gini. Może to być specyficzne dla zestawu danych, ale mogłoby się wydawać, że wypróbowanie obu podczas strojenia hiperparametrów jest racjonalnym wyborem, zamiast wcześniejszego zakładania modelu.
Nigdy nie wiesz, jak zareagują dane, dopóki nie uruchomisz statystyk.
źródło
Zgodnie z zasadą parsimony Gini przewyższa entropię pod względem łatwości obliczeń (log jest oczywiste, że wymaga więcej obliczeń niż zwykłego mnożenia na poziomie procesora / maszyny).
Ale entropia zdecydowanie ma przewagę w niektórych przypadkach danych, w których występuje duża nierównowaga.
Ponieważ entropia wykorzystuje dziennik prawdopodobieństw i pomnożenie przez prawdopodobieństwa zdarzenia, to co dzieje się w tle, zwiększa się wartość niższych prawdopodobieństw.
Jeśli rozkład prawdopodobieństwa danych jest wykładniczy lub Laplace'a (jak w przypadku głębokiego uczenia się, gdzie potrzebujemy rozkładu prawdopodobieństwa w ostrym punkcie), entropia przewyższa Gini.
Dla przykładu, jeśli masz 2 zdarzenia, jedno prawdopodobieństwo .01 i drugie prawdopodobieństwo .99.
W Gini Prob sq będzie wynosić 0,01 ^ 2 + .99 ^ 2, .0001 + .9801 oznacza, że niższe prawdopodobieństwo nie odgrywa żadnej roli, ponieważ wszystko rządzi się prawdopodobieństwem większości.
Teraz w przypadku entropii .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 teraz w tym przypadku wyraźnie widoczne niższe prawdopodobieństwa mają lepszy wiek.
źródło