Studiuję drzewa klasyfikacji i regresji, a jedną z miar podziału lokalizacji jest wynik GINI.
Teraz jestem przyzwyczajony do określania najlepszego podziału lokalizacji, gdy logarytm stosunku prawdopodobieństwa tych samych danych między dwiema dystrybucjami wynosi zero, co oznacza, że prawdopodobieństwo członkostwa jest równie prawdopodobne.
Moja intuicja mówi, że musi istnieć jakieś połączenie, że GINI musi mieć dobry fundament w matematycznej teorii informacji (Shannon), ale nie rozumiem GINI wystarczająco dobrze, aby sam wyprowadzić związek.
Pytania:
- Jaka jest „pierwsza zasada” wyprowadzenia wyniku zanieczyszczenia GINI jako miara podziału?
- W jaki sposób wynik GINI odnosi się do logarytmu ilorazu prawdopodobieństwa lub innych podstaw teoretycznych informacji (Shannon Entropy, pdf i entropia krzyżowa są ich częścią)?
Referencje:
- Jak definiuje się ważone kryterium Giniego?
- Matematyka za drzewami klasyfikacji i regresji
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(dodano) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Entropia Shannona jest opisana jako:
Rozszerzając to na przypadek wielowymiarowy otrzymujemy:
Entropia warunkowa jest zdefiniowana w następujący sposób:
Dziennik stosunku prawdopodobieństw służy do wykrywania nagłych zmian i jest uzyskiwany przy użyciu nich. (Nie mam pochodnych przede mną).
Zanieczyszczenie GINI:
- Ogólna postać zanieczyszczenia GINI to
Myśli:
- Dzielenie odbywa się na zasadzie zanieczyszczenia. Wysoka „czystość” jest prawdopodobnie taka sama jak niska entropia. Podejście to jest prawdopodobnie związane z minimalizacją entropii.
- Jest prawdopodobne, że założony rozkład podstawy jest równomierny, lub ewentualnie z machaniem ręką, gaussowski. Prawdopodobnie tworzą mieszankę dystrybucji.
- Zastanawiam się, czy można tu zastosować wyprowadzenie wykresu Shewharta?
- Zanieczyszczenie GINI wygląda jak całka funkcji gęstości prawdopodobieństwa dla rozkładu dwumianowego z 2 próbami i jednym sukcesem.
(dodatkowy)
- Forma jest również zgodna z rozkładem dwumianowym Beta, który jest sprzężony przed rozkładem hipergeometrycznym. Testy hipergeometryczne są często stosowane w celu ustalenia, które próbki są reprezentowane w próbce powyżej lub poniżej. Istnieje również związek z dokładnym testem Fishera, cokolwiek to jest (uwaga dla siebie, idź dowiedzieć się więcej na ten temat).
Edycja: Podejrzewam, że istnieje forma GINI, która działa bardzo dobrze z logiką cyfrową i / lub drzewami rb. Mam nadzieję, że odkryję to jesienią w projekcie klasowym.
źródło
Odpowiedzi:
Użyję tego samego zapisu, którego tutaj użyłem: matematyki za drzewami klasyfikacji i regresji
W zależności od społeczności (statystyki / eksploracja danych) ludzie wolą jeden środek lub drugi (Powiązane pytanie tutaj ). Mogą być prawie równoważne w procesie indukcyjnym drzewa decyzyjnego. Prawdopodobieństwo dziennika może dać wyższe wyniki zrównoważonym partycjom, gdy istnieje wiele klas [Uwaga techniczna: Niektóre właściwości kryteriów podziału. Breiman 1996].
Gini Gain może być ładniejszy, ponieważ nie ma logarytmów i można znaleźć zamkniętą formę dla jej oczekiwanej wartości i wariancji przy założeniu losowego podziału [Alin Dobra, Johannes Gehrke: Korekta odchylenia w konstrukcji drzewa klasyfikacyjnego. ICML 2001: 90-97]. Zdobywanie informacji nie jest tak łatwe (jeśli jesteś zainteresowany, zobacz tutaj ).
źródło
Dobre pytanie. Niestety nie mam jeszcze wystarczającej reputacji, aby głosować lub komentować, więc odpowiedzcie zamiast tego!
Nie znam się dobrze na testach proporcji, ale uderza mnie fakt, że jest to formalizm używany do porównywania prawdopodobieństwa danych wynikających z dwóch (lub więcej) różnych rozkładów, podczas gdy współczynnik Giniego jest zbiorczą statystyką pojedynczego rozkładu.
Przydatnym sposobem myślenia o współczynniku Giniego (IMO) jest obszar pod krzywą Lorenza (związane z cdf).
Możliwe jest zrównanie entropii Shannona z Gini przy użyciu definicji podanej w OP dla entropii:
oraz definicja Gini:
Nie wygląda to jednak na łatwe zadanie!
źródło