Porównywanie klastrów: Indeks Rand a zmienność informacji

21

Zastanawiałem się, czy ktokolwiek miałby wgląd lub intuicję za różnicą między zmiennością informacji a indeksem Rand do porównywania klastrów.

Przeczytałem artykuł „ Porównywanie klastrów - odległość oparta na informacjach ” autorstwa Marii Melii (Journal of Multivariate Analysis, 2007), ale poza zauważeniem różnicy w definicjach, nie rozumiem, co to za odmiana informacji przechwytuje, że indeks rand nie przechwytuje.

Amelio Vazquez-Reina
źródło

Odpowiedzi:

8

Różnica między tymi dwiema metodami jest subtelna. Najlepszym sposobem, aby o tym pomyśleć, jest wzięcie pod uwagę sieci zdefiniowanej przez operację scalania-podziału w klastrach. Obie te miary można zrekonstruować, definiując funkcję w klastrowaniu, a następnie określając odległość między dwoma klastrami za pomocą wzoru:fa

gdzie C C jest połączeniem dwóch skupień w sieci.

re(do,do)=fa(do)+fa(do)-2)fa(dodo)
dodo

Teraz niech i niech n i = | C i | . Ustawienie f ( C ) = n 2 i daje indeks rand, a ustawienie f ( C ) = n i log n i daje VI.do={do1,do2),,dok}nja=|doja|fa(do)=nja2)fa(do)=njalognja

Suresh Venkatasubramanian
źródło
Dzięki Suresh! Czy wiesz, czy (i jak) różnica w tych formułach wyjaśnia, dlaczego indeks rand i odmiana informacji karają spójność (ile jedno z klastrów stanowi podklucz drugiego) między klastrami inaczej? (według odpowiedzi Micansa)
Amelio Vazquez-Reina
2
Jak wskazuje micans, Indeks Rand ma zachowanie kwadratowe, więc jest bardziej wrażliwy na zmiany w ograniczeniu niż funkcja entropii, która jest bliska liniowej.
Suresh Venkatasubramanian
Przepraszam, ale nadal nie widzę, w jaki sposób ograniczenie wpływa na warunki kwadratowe bardziej niż inne rodzaje rozbieżności między klastrami. Czy mógłbyś rozwinąć tę kwestię nieco dalej?
Amelio Vazquez-Reina
@ user023472 Witaj user023472. Jestem zainteresowany twoimi ustaleniami, wydaje się, że zadałeś to pytanie jakiś czas temu. Czy nauczyłeś się, czym tak naprawdę jest różnica między tymi dwiema metodami? Dzięki.
Creatron
14

Moim zdaniem istnieją ogromne różnice. Na wskaźnik Rand duży wpływ ma ziarnistość klastrów, na których działa. W dalszej części wykorzystam odległość Mirkina, która jest skorygowaną formą indeksu Rand (łatwa do zauważenia, ale patrz np. Meila). Wykorzystam również odległość podziału / łączenia, o której wspomniałem również w niektórych artykułach Meili (zastrzeżenie: zaproponowałem odległość podziału / łączenia). Załóżmy, że wszechświat składa się ze stu elementów. Użyję opcji Góra, aby oznaczyć klastrowanie za pomocą pojedynczego klastra zawierającego wszystkie elementy, Dolnej, aby oznaczyć klastrowanie, w której wszystkie węzły znajdują się w osobnych zestawach singletonów, Lewej, aby oznaczyć grupowanie {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} i prawo do oznaczenia grupowania {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}} .

Moim zdaniem, Dół i Góra są spójnymi (zagnieżdżającymi się) klastrami, podczas gdy lewa i prawa są maksymalnie sprzecznymi klastrami. Odległości od wymienionych wskaźników dla tych dwóch porównań par są następujące:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Wynika z tego, że Mirkin / Rand rozważa spójną parę góra-dół znacznie dalej od siebie niż maksymalnie sprzeczna para lewa-prawa. Jest to skrajny przykład ilustrujący tę kwestię, ale na Mirkin / Rand na ogół bardzo duży wpływ ma ziarnistość klastrów, na których działa. Powodem tego jest kwadratowa zależność między tą metryką a rozmiarem klastra, wyjaśniona faktem, że bierze się pod uwagę liczenie par węzłów. W efekcie odległość Mirkina to odległość Hamminga między zestawami krawędziowymi złączy kompletnych wykresów wywołanych przez skupienia (myślę, że jest to odpowiedź na twoje pytanie).

Jeśli chodzi o różnice między zmiennością informacji a podziałem / łączeniem, pierwsza jest bardziej wrażliwa na pewne sytuacje konfliktowe, jak wykazała Meila. Oznacza to, że podział / łączenie uwzględnia tylko najlepsze dopasowanie dla każdego klastra i ignoruje fragmentację, która może wystąpić w pozostałej części tego klastra, podczas gdy zmienność informacji to wykryje. To powiedziawszy, Split / Join jest łatwo interpretowalny jako liczba węzłów, które należy przenieść, aby uzyskać jeden klaster od drugiego , i w tym sensie jego zasięg jest łatwiejszy do zrozumienia; w praktyce kwestia fragmentacji może również nie być tak powszechna.

Każda z tych miar może być utworzona jako suma dwóch odległości, a mianowicie odległości od każdego z dwóch klastrów do ich największej wspólnej podgrupowania. Uważam, że często korzystna jest praca z tymi oddzielnymi częściami, a nie tylko ich sumą. Powyższa tabela staje się następnie:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Relacja subskrypcji między górą i dołem staje się natychmiast jasna. Często bardzo przydatna jest wiedza, czy dwa klastry są spójne (tj. Jedno (prawie) jest podgrupą drugiego), jako rozluźnienie pytania, czy są blisko . Grupowanie może być dość odległe od standardu złota, ale nadal być spójne lub prawie spójne. W takim przypadku może nie być żadnego powodu, aby uważać klastrowanie za złe w odniesieniu do tego standardu złota. Oczywiście, trywialne klastry Góra i Dół będą zgodne z każdym klastrowaniem, więc należy to wziąć pod uwagę.

Wreszcie uważam, że takie wskaźniki, jak Mirkin, Zmienność informacji i Podział / Dołącz to naturalne narzędzia do porównywania klastrów. W przypadku większości zastosowań metody, które próbują uwzględnić statystyczną niezależność i skorygować przypadek, są zbyt wymyślone i zaciemniają, a nie wyjaśniają.

Drugi przykład Rozważ następujące pary klastrów: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} z C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

i C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} z {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Tutaj C2 można utworzyć z C1 poprzez przesunięcie węzłów 9 i 10, a C3 można utworzyć z C3 poprzez przesunięcie węzłów 11 i 12. Obie zmiany są identyczne („przenieś dwa węzły”), z wyjątkiem tego, że rozmiary zaangażowanych klastrów różnią się . Tabela metryk klastrowania dla tych dwóch przykładów jest następująca:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Można zauważyć, że na rozmiary klastra wpływ mają Mirkin / Rand i zmienność informacji (i w większym stopniu Mirkin; będzie to bardziej wyraźne, gdy rozmiary klastra będą się różnić), podczas gdy odległość podziału / łączenia nie jest (jego wartość wynosi 4 ponieważ „przenosi” węzły z jednego klastra do drugiego zawsze za pośrednictwem największej wspólnej podgrupowania). W zależności od okoliczności może to być pożądana cecha. Warto pamiętać o prostej interpretacji podziału / łączenia (liczby węzłów do przeniesienia) i jej niezależności od wielkości klastra. Pomiędzy Mirkinem a odmianą informacji myślę, że ta ostatnia jest zdecydowanie lepsza.

micans
źródło
Dzięki micans, to jest bardzo wnikliwe. Nie jestem pewien, czy zrozumiałem drugi stół. Dlaczego dla każdej pozycji w tabeli są dwie liczby oddzielone przecinkiem? Czy wiesz też, jak ten argument odnosi się do @ Suresha?
Amelio Vazquez-Reina
1
Jeśli A i B są klastrami, to d (A, B) można podzielić jako d (A, B) = d (A, X) + d (B, X), gdzie X jest największym skupieniem, które jest podgrupą obie. W notacji Suresha mamy d (A, B) = f (A) + f (B) -2f (X). Można to przepisać jako f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Powyżej napisałem dwa składniki d (A, X) i d (B, X) oddzielone przecinkami. Największą różnicą między nimi jest zdecydowanie kwadratowa charakterystyka Mirkin / Rand. Jeśli spojrzymy na przykłady Góra / Dół i Lewo / Prawo, odległość od góry do dołu jest ogromna; dzieje się tak całkowicie ze względu na rozmiar góry.
micans