Jaki jest związek między wynikiem GINI a współczynnikiem logarytmu prawdopodobieństwa

Studiuję drzewa klasyfikacji i regresji, a jedną z miar podziału lokalizacji jest wynik GINI.

Teraz jestem przyzwyczajony do określania najlepszego podziału lokalizacji, gdy logarytm stosunku prawdopodobieństwa tych samych danych między dwiema dystrybucjami wynosi zero, co oznacza, że prawdopodobieństwo członkostwa jest równie prawdopodobne.

Moja intuicja mówi, że musi istnieć jakieś połączenie, że GINI musi mieć dobry fundament w matematycznej teorii informacji (Shannon), ale nie rozumiem GINI wystarczająco dobrze, aby sam wyprowadzić związek.

Pytania:

Jaka jest „pierwsza zasada” wyprowadzenia wyniku zanieczyszczenia GINI jako miara podziału?
W jaki sposób wynik GINI odnosi się do logarytmu ilorazu prawdopodobieństwa lub innych podstaw teoretycznych informacji (Shannon Entropy, pdf i entropia krzyżowa są ich częścią)?

Referencje:

Entropia Shannona jest opisana jako:

H (x) = Σ_{i} P (x_{i}) \log_{b} P (x_{i})

$H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

Rozszerzając to na przypadek wielowymiarowy otrzymujemy:

H (X, Y) = Σ_{x} Σ_{y} P (x, y) \log_{b} P (x, y)

$H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right)$

Entropia warunkowa jest zdefiniowana w następujący sposób:

\begin{aligned} H (X | Y) & = Σ_{y} p (x, y) \log_{b} \frac{p (x)}{p (x, y)} \\ or, \\ H (X | Y) & = H (X, Y) - H (Y) \end{aligned}

$\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}$

Dziennik stosunku prawdopodobieństw służy do wykrywania nagłych zmian i jest uzyskiwany przy użyciu nich. (Nie mam pochodnych przede mną).

Zanieczyszczenie GINI:

Ogólna postać zanieczyszczenia GINI to $I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right)$

Myśli:

Dzielenie odbywa się na zasadzie zanieczyszczenia. Wysoka „czystość” jest prawdopodobnie taka sama jak niska entropia. Podejście to jest prawdopodobnie związane z minimalizacją entropii.
Jest prawdopodobne, że założony rozkład podstawy jest równomierny, lub ewentualnie z machaniem ręką, gaussowski. Prawdopodobnie tworzą mieszankę dystrybucji.
Zastanawiam się, czy można tu zastosować wyprowadzenie wykresu Shewharta?
Zanieczyszczenie GINI wygląda jak całka funkcji gęstości prawdopodobieństwa dla rozkładu dwumianowego z 2 próbami i jednym sukcesem. $P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right)$

(dodatkowy)

Forma jest również zgodna z rozkładem dwumianowym Beta, który jest sprzężony przed rozkładem hipergeometrycznym. Testy hipergeometryczne są często stosowane w celu ustalenia, które próbki są reprezentowane w próbce powyżej lub poniżej. Istnieje również związek z dokładnym testem Fishera, cokolwiek to jest (uwaga dla siebie, idź dowiedzieć się więcej na ten temat).

Edycja: Podejrzewam, że istnieje forma GINI, która działa bardzo dobrze z logiką cyfrową i / lub drzewami rb. Mam nadzieję, że odkryję to jesienią w projekcie klasowym.

cart likelihood-ratio information-theory kullback-leibler gini EngrStudent - Przywróć Monikę
źródło

Czy problematyczne jest udzielenie odpowiedzi na własne pytanie?

EngrStudent - Przywróć Monikę

Nie, wcale nie. Jeśli wymyśliłeś, co uważasz za rozsądną odpowiedź, odpal.

gung - Przywróć Monikę

@EngrStudent. dobre pytanie, ale pierwszy link, który podajesz w sekcji odniesień, dotyczy współczynnika Giniego, który nie ma nic wspólnego z miarą Giniego stosowaną w KOSZYKU

Antoine

Jeśli chodzi o indeks Gini, właśnie opublikowałem prostą interpretację: stats.stackexchange.com/questions/308885/…

Picaud Vincent

Odpowiedzi:

Użyję tego samego zapisu, którego tutaj użyłem: matematyki za drzewami klasyfikacji i regresji

$IG$ $I$

$\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
$\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

$\beta$

H_{β} (E) = \frac{1}{β - 1} (1 - \sum_{j = 1}^{c} p_{j}^{β})

$H_\beta (E) = \frac{1}{\beta-1} \left( 1 - \sum_{j=1}^{c}p_j^\beta \right)$

$\textit{Gini}$ $\beta = 2$ $H$ $\beta \rightarrow 1$ .

$G$

G -statistic = 2 \cdot | E | \cdot I G

$G\text{-statistic} = 2 \cdot |E| \cdot IG$

W zależności od społeczności (statystyki / eksploracja danych) ludzie wolą jeden środek lub drugi (Powiązane pytanie tutaj ). Mogą być prawie równoważne w procesie indukcyjnym drzewa decyzyjnego. Prawdopodobieństwo dziennika może dać wyższe wyniki zrównoważonym partycjom, gdy istnieje wiele klas [Uwaga techniczna: Niektóre właściwości kryteriów podziału. Breiman 1996].

Gini Gain może być ładniejszy, ponieważ nie ma logarytmów i można znaleźć zamkniętą formę dla jej oczekiwanej wartości i wariancji przy założeniu losowego podziału [Alin Dobra, Johannes Gehrke: Korekta odchylenia w konstrukcji drzewa klasyfikacyjnego. ICML 2001: 90-97]. Zdobywanie informacji nie jest tak łatwe (jeśli jesteś zainteresowany, zobacz tutaj ).

Simone
źródło

Dobre pytanie. Niestety nie mam jeszcze wystarczającej reputacji, aby głosować lub komentować, więc odpowiedzcie zamiast tego!

Nie znam się dobrze na testach proporcji, ale uderza mnie fakt, że jest to formalizm używany do porównywania prawdopodobieństwa danych wynikających z dwóch (lub więcej) różnych rozkładów, podczas gdy współczynnik Giniego jest zbiorczą statystyką pojedynczego rozkładu.

Przydatnym sposobem myślenia o współczynniku Giniego (IMO) jest obszar pod krzywą Lorenza (związane z cdf).

Możliwe jest zrównanie entropii Shannona z Gini przy użyciu definicji podanej w OP dla entropii:

$H = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

oraz definicja Gini:

$G = 1 - \frac{1}{\mu}\Sigma_i P(x_i)(S_{i-1} + S_i)$

$S_i = \Sigma_{j=1}^i P(x_i)x_i$ $x_i$ ).

Nie wygląda to jednak na łatwe zadanie!

Gabriel
źródło

Współczynnik wiarygodności dziennika działa na tych samych danych. Jeden z rozkładów może mieć tę samą ogólną formę co drugi, ale jego parametry zostały dopasowane do danych, gdy spełnione było inne kryterium. Na przykład, możesz mieć jeden rozkład, którego parametry opisują zdrową zmienność procesu produkcyjnego (niekoniecznie gaussowski), a drugi, który jest zgodny z bieżącymi wartościami procesu produkcyjnego, i działaj zarówno na bieżących wartościach procesu produkcyjnego, porównując stosunek prawdopodobieństwa log do wartości progowej wskazującej możliwość wycieczki. Można go porównać z ideałem.

EngrStudent - Przywróć Monikę