Korzystam z szybkiej symulacji, aby porównać różne metody klastrowania, i obecnie mam problem z oceną rozwiązań klastrowych.
Znam różne miary sprawdzania poprawności (wiele z nich znajduje się w klaster.stats () w R), ale zakładam, że najlepiej je wykorzystać, jeśli szacunkowa liczba klastrów faktycznie równa się prawdziwej liczbie klastrów. Chcę zachować możliwość pomiaru, jak dobrze działa rozwiązanie klastrowania, gdy nie określa ono prawidłowej liczby klastrów w oryginalnej symulacji (tj. Jak dobrze dane modelu rozwiązania z trzema klastrami, które zostały zasymulowane, mają 4-klaster rozwiązanie). Tylko dla twojej informacji, klastry są symulowane, aby posiadać identyczne macierze kowariancji.
Myślałem, że rozbieżność KL między dwiema mieszaninami Gaussów byłaby użyteczna do wdrożenia, ale nie istnieje żadne rozwiązanie w formie zamkniętej ( Hershey i Olson (2007) ), a wdrożenie symulacji Monte Carlo zaczyna być kosztownie obliczeniowe.
Czy są jakieś inne rozwiązania, które mogą być łatwe do wdrożenia (nawet jeśli są tylko przybliżeniem)?
Odpowiedzi:
Załóżmy, że mamy dwa Gaussa mieszaniny wRd :
P=∑i=1nαiPi=∑i=1nαiN(μi,Σi)Q=∑j=1mβjQj=∑j=1mN(mj,Sj).
Nazwij ich gęstości odpowiedniop(⋅) iq(⋅) , i oznacz gęstość ich składnikówPi ,Qj przezpi(x)=N(x;μi,Σi) ,qj(x)=N(x;mj,Sj) .
Następujące odległości są dostępne w formie zamkniętej:
Maksymalna średnia rozbieżność (MMD) z jądrem Gaussa RBF. To fajny dystans, który nie jest jeszcze zbyt dobrze znany społeczności statystyk, którego zdefiniowanie zajmuje trochę matematyki.
Pozwalająck(x,y):=exp(−12σ2∥x−y∥2),
określenie HilbertaH co jądro odtwarzające Hilberta przestrzeni odpowiadającejk :k(x,y)=⟨φ(x),φ(y)⟩H .
Określić średnią jądra mapę jakoK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
MMD to wtedyMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Formularze zamknięte są również dostępne dla jąder wielomianowychk w MMD; widzieć
Aby zobaczyć wiele fajnych właściwości tej odległości, zobacz
Kwadratowa dywergencja Jensen-Rényi. The Rényi-α entropia jest zdefiniowana jako
H.α( p ) = 11 - αlog(∫p(x)αdx).
Its limit as α→1 is the Shannon entropy. The Jensen-Rényi divergence is
JRα(p,q)=Hα(p+q2)−Hα(p)+Hα(q)2
where p+q2 denotes an equal mixture between p and q .
It turns out that, when α=2 and when P and Q are Gaussian mixtures (as here), you can compute a closed form for JR2 . This was done by
źródło
If your clusters are actually not Gaussian mixtures but arbitrarily shaped, your results may actually be much better when you produce much more clusters, then merge some again afterwards.
In many cases, one just chooses k to be arbitrarily high, e.g. 1000 for a large data set; in particular when you aren't really interested in the models, but just want to reduce the complexity of the data set via vector quantization.
źródło
Here is a generalization of the Mahalanobis D to GMMs using the Fisher Kernel method and other techniques:
Tipping, Michael E. "Deriving cluster analytic distance functions from Gaussian mixture models." (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
See also: Is there a multi-Gaussian version of the Mahalanobis distance ?
źródło