Tak więc uzyskanie „idei” optymalnej liczby klastrów w k-średnich jest dobrze udokumentowane. Znalazłem artykuł o robieniu tego w mieszankach gaussowskich, ale nie jestem pewien, czy mnie to przekonuje, nie rozumiem tego zbyt dobrze. Czy istnieje ... łagodniejszy sposób na zrobienie tego?
10
Odpowiedzi:
Tylko pewne rozszerzenie komentarza Dikran Marsupial (cross-validation). Główną ideą jest podzielenie danych na zestawy szkoleniowe i walidacyjne, wypróbowanie innej liczby komponentów i wybranie najlepszego na podstawie odpowiednich wartości prawdopodobieństwa szkolenia i walidacji.
Prawdopodobieństwo GMM jest słusznep ( x | π, μ , Σ ) =∑K.πkN.( x |μk,Σk) z definicji gdzie K. to liczba składników (klastrów) i π ,μ ,Σ są parametrami modelu. Zmieniając wartośćK. możesz wykreślić prawdopodobieństwo GMM dla zestawów szkoleniowych i walidacyjnych w następujący sposób.
W tym przykładzie powinno być oczywiste, że optymalna liczba komponentów wynosi około 20. Jest fajny film na ten temat na Coursera, i tam właśnie otrzymałem powyższe zdjęcie.
Inną powszechnie stosowaną metodą jest bayesowskie kryterium informacyjne (BIC) :
źródło