Wybór modelu Mclust

11

Pakiet R mclustwykorzystuje BIC jako kryterium wyboru modelu klastra. Z mojego zrozumienia, model z najniższym BIC powinien zostać wybrany w porównaniu z innymi modelami (jeśli zależy ci tylko na BIC). Jednak gdy wszystkie wartości BIC są ujemne, Mclustfunkcja domyślnie przyjmuje model o najwyższej wartości BIC. Moje ogólne zrozumienie z różnych prób tym, że mclustidentyfikuje „najlepsze” modele jako te, które mają .mzax{bjadoja}

Próbuję zrozumieć, dlaczego autorzy podjęli tę decyzję. Ilustruje to strona CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Autorzy mclustpakietów również odnotowują to w swoim artykule Modelowe metody klasyfikacji: Korzystanie z oprogramowania mclust w chemometrii na stronie 5.

Przyjmuje się, że „najlepszy” model ma najwyższy BIC wśród dopasowanych modeli.

Czy ktoś może rzucić światło na ten problem? Jeśli niższy BIC jest zawsze lepszy, dlaczego autorzy nie wybierają modelu z najniższym BIC, a raczej model z najmniejszym absolutnym BIC? Jeśli to możliwe, podaj referencje.

Jon
źródło

Odpowiedzi:

10

Znaleziono rozwiązanie:

Tak więc, aby powtórzyć pytanie, dlaczego Mclustfunkcja domyślnie przyjmuje model o najwyższej wartości BIC jako „najlepszy” model?

Świetne pytanie! Pozwól, że dam ci na to długą odpowiedź.

TL; DR : Wartości BIC są przybliżeniem zintegrowanego (nie maksymalnego) prawdopodobieństwa i chcesz model o największym zintegrowanym prawdopodobieństwie (współczynnik Bayesa), więc wybierasz model o największym BIC.

Długa odpowiedź : Celem zastosowania klastrowania opartego na modelu w stosunku do metod klastrowania opartych na heurystyce, takich jak k-średnie i klastrowanie hierarchiczne (aglomeracyjne), jest zapewnienie bardziej formalnego i intuicyjnego podejścia do porównywania i wybierania odpowiedniego modelu klastra dla danych.

Mclust stosuje techniki grupowania oparte na modelach prawdopodobieństwa, mieszanych modelach Gaussa. Korzystanie z modeli prawdopodobieństwa pozwala na opracowanie metod opartych na modelach w celu porównania różnych modeli i rozmiarów klastrów. Zobacz * Metody klasyfikacji oparte na modelach: Korzystanie z oprogramowania mclust w chemometrii * ( https://www.jstatsoft.org/article/view/v018i06 ), aby uzyskać więcej informacji.

Jak wspomniano powyżej, autorzy twierdzą, że „najlepszym” modelem jest model o największych wartościach BIC. Oto kolejny przykład ulepszonego oprogramowania do klastrowania, szacowania gęstości i analizy dyskryminacyjnej: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Baysian Information Criterion lub BIC (?) Jest wartością zmaksymalizowanego prawdopodobieństwa logicznego z karą za liczbę parametrów w modelu i umożliwia porównanie modeli o różnych parametryzacjach i / lub różnej liczbie klastrów. Zasadniczo im większa wartość BIC, tym silniejszy jest dowód na model i liczbę klastrów (patrz np. Fraley i Raftery 2002a).

Wybór modelu : Teraz, gdy do klastrów dołączony jest model prawdopodobieństwa, można użyć bardziej wyrafinowanych narzędzi do porównywania wielu modeli klastrów przy użyciu wyboru modelu Bayesa za pomocą czynników Bayesa.

W swoim artykule Ile klastrów? Która metoda klastrowania? Odpowiedzi za pomocą analizy skupień opartej na modelu ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Współczynnik Bayesa jest późniejszym kursem dla jednego modelu w stosunku do drugiego, zakładając, że żaden z nich nie jest preferowany z góry. Banfield i Raftery [2] zastosowali heurystycznie wyprowadzoną aproksymację do dwukrotności logarytmicznego współczynnika Bayesa, zwanego „AWE”, aby określić liczbę klastrów w hierarchicznym klastrowaniu na podstawie prawdopodobieństwa klasyfikacji. Gdy do ustalenia maksymalnego prawdopodobieństwa zmieszania stosuje się EM, zastosowanie ma bardziej wiarygodne przybliżenie do dwukrotności logarytmicznego współczynnika Bayesa zwanego BIC (Schwarz [32]):

2)log(p(x|M.))+doonstzant2)lM.(x,θ^)-mmlosol(n)bjado

gdzie jest (zintegrowanym) prawdopodobieństwem danych dla modelu M, jest zmiksowanym prawdopodobieństwem logarytmicznym mieszanki dla modelu, a m_M jest liczbą niezależnych parametrów do oszacowania w modelu. Liczba klastrów nie jest uważana za niezależny parametr do celów obliczania BIC. Jeśli każdy model jest równie likeli , a następnie jest proporcjonalna do prawdopodobieństwa a posteriori, że dane zgodne ze wzorem . W związku z tym, im większa wartość BIC, tym silniejsze dowody dla modelu.p(x|M.)lM.(x,θ^)za prjaorjap(x|M.)M.

Podsumowując, BIC nie powinien być minimalizowany. Osoba stosująca to podejście oparte na modelowaniu klastrowym powinna poszukać modelu, który maksymalizuje BIC, ponieważ przybliża współczynnik Bayesa z maksymalnym zintegrowanym prawdopodobieństwem.

To ostatnie stwierdzenie ma również odniesienie:

Banfield, JD and Raftery, AE (1993) Modelowanie klastrów gaussowskich i nie Gaussowskich. Biometrics, 49, 803–821.

EDYCJA : Na podstawie wymiany wiadomości e-mail,

Na marginesie, zawsze sprawdź, jak zdefiniowany jest BIC. Czasami, na przykład w większości kontekstów regresji (gdzie tradycyjnie statystyki są minimalizowane w celu oszacowania parametrów, np. Rezydualna suma kwadratów, odchylenie itp.) BIC oblicza się jako -2 * loglik + npar * log (n), tj. Odwrotność co jest używane w mclust. Oczywiście w takim przypadku BIC należy zminimalizować.

Ogólna definicja BIC to ; mclust nie zawiera elementu ujemnego.bjado=-2)×ln(L.(θ|x))+k×ln(n)

Jon
źródło
1
Nie jestem pewien, z którą wersją korespondencji e-mail Mclust była związana ta odpowiedź. Wersja 4 Mclust wykorzystuje ujemny składnik BIC i dlatego powinna zostać zmaksymalizowana. Mam nadzieję, że może być przydatny dla osób próbujących dowiedzieć się, czy należy przeprowadzić maksymalizację, czy minimalizację.
Rasika
Dzięki za zwrócenie na to uwagi, zaktualizuję to pytanie, aby miało sens. Mogę również zajrzeć do dokumentacji, aby sprawdzić, czy istnieje powód, dla którego zdecydowali się wprowadzić tę zmianę po tylu latach
Jon