Użyłem statystyki GAP do oszacowania k klastrów w R. Jednak nie jestem pewien, czy dobrze ją interpretuję.
Z powyższego wątku zakładam, że powinienem użyć 3 klastrów.
Z drugiego wątku powinienem wybrać 6 klastrów. Czy to poprawna interpretacja statystyki GAP?
Byłbym wdzięczny za wszelkie wyjaśnienia.
clustering
peterpeter
źródło
źródło
clusGap
oparciu o globalmax, nie wiedziałem jak zaimplementować maxSE.Odpowiedzi:
Jednak w wielu rzeczywistych zestawach danych klastry nie są tak dobrze zdefiniowane i chcemy być w stanie zrównoważyć maksymalizację statystyki luki z parsymonem modelu. Przykład: pierwszy obraz OP. Jeśli maksymalizujemy samą statystykę luk , powinniśmy wybrać model z 30 (lub nawet więcej!) Klastrami. Zakładając, że ta fabuła będzie się nadal powiększać, oczywiście wyniki są mniej przydatne. Więc Tibshirani sugeruje metodę 1-standardowego błędu :
Co nieformalnie określa moment, w którym tempo wzrostu statystyki luki zaczyna „zwalniać”.
clusGap
firstSEmax
Źródło: Robert Tibshirani, Guenther Walther i Trevor Hastie (2001). Szacowanie liczby klastrów w zbiorze danych za pomocą statystyki luki.
źródło