Czy istnieją jakieś algorytmy klastrowania oparte na braku odległości?

14

Wydaje się, że w przypadku średnich K i innych powiązanych algorytmów grupowanie opiera się na obliczaniu odległości między punktami. Czy jest taki, który działa bez niego?

użytkownik154510
źródło
2
Dokładnie, co miałbyś na myśli przez „grupowanie” bez jakiegoś sposobu na oszacowanie podobieństwa lub „bliskości” punktów?
whuber
2
@ Odpowiedź Tima poniżej jest bardzo dobra. Możesz rozważyć wznowienie głosowania i / lub zaakceptowanie go, jeśli pomogło ci to; to dobry sposób na powiedzenie „dzięki”. Rozszerzając swój pomysł, istnieje utajona analiza klas , która stosuje podobne podejście do danych kategorycznych. Nieparametryczne podejście do FMM można zastosować na podstawie wysokości szacunków gęstości jądra na wielu odmianach. Zobacz Klastrowanie za pomocą szacowania gęstości nieparametrycznej: Pakiet R pdfCluster ( pdf ), aby uzyskać więcej.
gung - Przywróć Monikę

Odpowiedzi:

25

Jednym z przykładów takiej metody są modele mieszanki skończonej (np. Tutaj lub tutaj ) stosowane do grupowania. W FMM rozważyć rozmieszczenie ( ) o zmiennej X w postaci mieszaniny K rozkładów ( f 1 , . . . , F k ):fXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

gdzie jest wektorem parametrów θ = ( Õ ' , θ ' 1 , . . . , θ ' K ) " i π k jest stosunek k -tym rozkładu mieszaniny i θ k jest parametrem (lub parametry) od f k dystrybucji.ϑϑ=(π,ϑ1,...,ϑk)πkkϑkfk

Szczególnym przypadkiem danych dyskretnych jest analiza ukrytych klas (np. Tutaj ) zdefiniowana jako:

P(x,k)=P(k)P(x|k)

gdzie jest prawdopodobieństwo obserwowania utajony klasy K (czyli π k ), P ( x ) jest prawdopodobieństwo obserwację x wartość i P ( x | k ) jest prawdopodobieństwo x będących w klasie k .P(k)kπkP(x)xP(x|k)xk

Zazwyczaj zarówno dla FMM, jak i LCA stosuje się algorytm EM , ale możliwe jest również podejście bayesowskie, ale nieco bardziej wymagające ze względu na problemy, takie jak identyfikacja modelu i zmiana etykiety (np . Blog Xi'ana ).

Zatem nie ma miary odległości, a raczej model statystyczny określający strukturę (rozkład) danych. Z tego powodu inną nazwą tej metody jest „klastrowanie oparte na modelu”.

Sprawdź dwie książki na temat FMM:

Jednym z najbardziej popularnych pakietów klastrów, które wykorzystuje się FMM mclust(sprawdź tutaj lub tutaj ), które jest realizowane w R . Możliwe są jednak bardziej skomplikowane FMM, sprawdź na przykład flexmixpakiet i jego dokumentację . Dla LCA istnieje pakiet R poLCA .

Tim
źródło
Czy masz dobre pojęcie o różnych przypadkach użycia?
shadowtalker
Na przykład: „kiedy powinienem tego użyć zamiast, powiedzmy, partycjonowania wokół medoidów?” W każdym razie bardzo fajna odpowiedź
shadowtalker,
1
@caveman zauważa, że ​​to tylko konwencja notacyjna. To wektor wektorów, to wszystko.
Tim
1
k f1,...,fk
1
k
7

Istnieje wiele podejść do klastrowania opartych na siatce . Nie obliczają odległości, ponieważ często daje to kwadratowy czas działania. Zamiast tego dzielą dane i agregują je w komórki siatki. Ale intuicja stojąca za takimi podejściami jest zwykle bardzo ściśle związana z odległościami.

Istnieje wiele algorytmów grupowania dla danych kategorycznych, takich jak COOLCAT i STUCCO. Odległości nie są łatwe w użyciu z takimi danymi (kodowanie na gorąco to hack i nie daje szczególnie znaczących odległości). Ale nie słyszałem o nikim, kto używałby tych algorytmów ...

Istnieją metody grupowania wykresów. Ale albo ograniczają się do klasycznych problemów graficznych, takich jak wyszukiwanie kliki lub bliski kliki i kolorowanie wykresów, lub są ściśle powiązane z grupowaniem na podstawie odległości (jeśli masz wykres ważony).

Klastrowanie oparte na gęstości, takie jak DBSCAN, ma inną nazwę i nie koncentruje się na minimalizowaniu odległości; ale „gęstość” jest zwykle określana w odniesieniu do odległości, więc technicznie algorytmy te są oparte na odległości lub na siatce.

Zasadniczą częścią pomijanego pytania jest to, jakie są twoje dane ?

Ma ZAKOŃCZENIE - Anony-Mus
źródło
1
+1: Doceniam to, że pokazujesz, w jaki sposób dowolny algorytm grupowania wykorzystuje ukryte (być może) uogólnione poczucie „odległości” lub „podobieństwa” i że robisz to, oferując przegląd wielu takich algorytmów.
whuber
Myślę, że przez „oparty na odległości” miał na myśli wskaźniki podobieństwa, które obejmowałyby wariancję.
en1
1
Dlaczego wariancja miałaby być podobieństwem? Jest to związane z kwadratową odległością euklidesową; ale nie równoważne arbitralnej odległości s .
Ma ZAKOŃCZENIE - Anony-Mousse
2

Podejście czysto dyskryminujące to „uregulowana maksymalizacja informacji” według Gomesa i in . Nie ma w tym żadnego pojęcia o podobieństwie / odległości.

Chodzi o regresję logistyczną podobną do modelu, która umieszcza punkty w pojemnikach. Ale zamiast trenować go, aby zmaksymalizować pewną formę logarytmu prawdopodobieństwa etykiet klas, funkcją celu jest ta, która umieszcza punkty w różnych klastrach.

λ

Rozszerzenie na metody jądra lub sieci neuronowe dla klastrowania nieliniowego jest proste.

bayerj
źródło