Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów.
1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego (patrz link powyżej);
2) „Współczynnik Giniego” - każdy podział można ocenić na podstawie kryterium AUC. Dla każdego scenariusza podziału możemy zbudować krzywą ROC i obliczyć miarę AUC. Według Wikipedii AUC = (GiniCoeff + 1) / 2;
Pytanie brzmi: czy oba te środki są równoważne? Z jednej strony jestem poinformowany, że współczynnika Giniego nie należy mylić z zanieczyszczeniem Giniego. Z drugiej strony, obie te miary mogą być wykorzystane do zrobienia tego samego - oceny jakości podziału drzewa decyzyjnego.
źródło
Odpowiedzi:
Nie, pomimo ich nazw nie są one równoważne ani nawet podobne.
Oba mogą być stosowane w niektórych przypadkach, ale są to różne miary dla różnych rzeczy. Zanieczyszczenia są powszechnie stosowane w drzewach decyzyjnych .
źródło
Wziąłem przykład danych z dwiema osobami A i B o bogactwie odpowiednio jednostki 1 i jednostki 3. Zanieczyszczenie Giniego według Wikipedii = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
Współczynnik Giniego według Wikipedii byłby stosunkiem pola między czerwoną i niebieską linią do całkowitego pola pod niebieską linią na poniższym wykresie
Obszar pod czerwoną linią wynosi 1/2 + 1 + 3/2 = 3
Całkowity obszar pod niebieską linią = 4
Więc współczynnik Giniego = 3/4
Oczywiście dwie liczby są różne. Sprawdzę więcej przypadków, aby sprawdzić, czy są one proporcjonalne lub czy istnieje dokładny związek i dokonam edycji odpowiedzi.
Edycja: Sprawdziłem również inne kombinacje, stosunek nie jest stały. Poniżej znajduje się lista kilku kombinacji, które wypróbowałem.
źródło
Myślę, że oba reprezentują tę samą koncepcję.
W drzewach klasyfikacyjnych indeks Gini służy do obliczania zanieczyszczenia partycji danych. Załóżmy więc, że partycja D składa się z 4 klas, każda z jednakowym prawdopodobieństwem. Wtedy Indeks Giniego (Gini Impurity) będzie wynosić: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)
W CART wykonujemy podziały binarne. Tak więc indeks gini zostanie obliczony jako ważona suma wynikowych partycji i wybieramy podział z najmniejszym indeksem gini.
Dlatego użycie Gini Impurity (Gini Index) nie ogranicza się do sytuacji binarnych.
Innym terminem dotyczącym zanieczyszczenia Gini jest współczynnik Giniego, który jest normalnie stosowany jako miara podziału dochodu.
źródło