Znaleziono rozwiązanie:
Tak więc, aby powtórzyć pytanie, dlaczego Mclust
funkcja domyślnie przyjmuje model o najwyższej wartości BIC jako „najlepszy” model?
Świetne pytanie! Pozwól, że dam ci na to długą odpowiedź.
TL; DR : Wartości BIC są przybliżeniem zintegrowanego (nie maksymalnego) prawdopodobieństwa i chcesz model o największym zintegrowanym prawdopodobieństwie (współczynnik Bayesa), więc wybierasz model o największym BIC.
Długa odpowiedź : Celem zastosowania klastrowania opartego na modelu w stosunku do metod klastrowania opartych na heurystyce, takich jak k-średnie i klastrowanie hierarchiczne (aglomeracyjne), jest zapewnienie bardziej formalnego i intuicyjnego podejścia do porównywania i wybierania odpowiedniego modelu klastra dla danych.
Mclust stosuje techniki grupowania oparte na modelach prawdopodobieństwa, mieszanych modelach Gaussa. Korzystanie z modeli prawdopodobieństwa pozwala na opracowanie metod opartych na modelach w celu porównania różnych modeli i rozmiarów klastrów. Zobacz * Metody klasyfikacji oparte na modelach: Korzystanie z oprogramowania mclust w chemometrii * ( https://www.jstatsoft.org/article/view/v018i06 ), aby uzyskać więcej informacji.
Jak wspomniano powyżej, autorzy twierdzą, że „najlepszym” modelem jest model o największych wartościach BIC. Oto kolejny przykład ulepszonego oprogramowania do klastrowania, szacowania gęstości i analizy dyskryminacyjnej: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Baysian Information Criterion lub BIC (?) Jest wartością zmaksymalizowanego prawdopodobieństwa logicznego z karą za liczbę parametrów w modelu i umożliwia porównanie modeli o różnych parametryzacjach i / lub różnej liczbie klastrów. Zasadniczo im większa wartość BIC, tym silniejszy jest dowód na model i liczbę klastrów (patrz np. Fraley i Raftery 2002a).
Wybór modelu : Teraz, gdy do klastrów dołączony jest model prawdopodobieństwa, można użyć bardziej wyrafinowanych narzędzi do porównywania wielu modeli klastrów przy użyciu wyboru modelu Bayesa za pomocą czynników Bayesa.
W swoim artykule Ile klastrów? Która metoda klastrowania? Odpowiedzi za pomocą analizy skupień opartej na modelu ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Współczynnik Bayesa jest późniejszym kursem dla jednego modelu w stosunku do drugiego, zakładając, że żaden z nich nie jest preferowany z góry. Banfield i Raftery [2] zastosowali heurystycznie wyprowadzoną aproksymację do dwukrotności logarytmicznego współczynnika Bayesa, zwanego „AWE”, aby określić liczbę klastrów w hierarchicznym klastrowaniu na podstawie prawdopodobieństwa klasyfikacji. Gdy do ustalenia maksymalnego prawdopodobieństwa zmieszania stosuje się EM, zastosowanie ma bardziej wiarygodne przybliżenie do dwukrotności logarytmicznego współczynnika Bayesa zwanego BIC (Schwarz [32]):
2 log( p ( x | M) ) + c o n s t a n t ≈ 2 lM.( x , θ^) - mml o g( n ) ≡ B Ido
gdzie jest (zintegrowanym) prawdopodobieństwem danych dla modelu M, jest zmiksowanym prawdopodobieństwem logarytmicznym mieszanki dla modelu, a m_M jest liczbą niezależnych parametrów do oszacowania w modelu. Liczba klastrów nie jest uważana za niezależny parametr do celów obliczania BIC. Jeśli każdy model jest równie likeli , a następnie jest proporcjonalna do prawdopodobieństwa a posteriori, że dane zgodne ze wzorem . W związku z tym, im większa wartość BIC, tym silniejsze dowody dla modelu.p ( x | M)lM.( x , θ^)a p r i o r i p ( x | M)M.
Podsumowując, BIC nie powinien być minimalizowany. Osoba stosująca to podejście oparte na modelowaniu klastrowym powinna poszukać modelu, który maksymalizuje BIC, ponieważ przybliża współczynnik Bayesa z maksymalnym zintegrowanym prawdopodobieństwem.
To ostatnie stwierdzenie ma również odniesienie:
Banfield, JD and Raftery, AE (1993) Modelowanie klastrów gaussowskich i nie Gaussowskich. Biometrics, 49, 803–821.
EDYCJA : Na podstawie wymiany wiadomości e-mail,
Na marginesie, zawsze sprawdź, jak zdefiniowany jest BIC. Czasami, na przykład w większości kontekstów regresji (gdzie tradycyjnie statystyki są minimalizowane w celu oszacowania parametrów, np. Rezydualna suma kwadratów, odchylenie itp.) BIC oblicza się jako -2 * loglik + npar * log (n), tj. Odwrotność co jest używane w mclust. Oczywiście w takim przypadku BIC należy zminimalizować.
Ogólna definicja BIC to
; mclust nie zawiera elementu ujemnego.B Ido= - 2 × l n ( L ( θ | x ) ) + k × l n ( n )