Jak mam interpretować statystyki GAP?

10

Użyłem statystyki GAP do oszacowania k klastrów w R. Jednak nie jestem pewien, czy dobrze ją interpretuję. wprowadź opis zdjęcia tutaj

Z powyższego wątku zakładam, że powinienem użyć 3 klastrów.

wprowadź opis zdjęcia tutaj

Z drugiego wątku powinienem wybrać 6 klastrów. Czy to poprawna interpretacja statystyki GAP?

Byłbym wdzięczny za wszelkie wyjaśnienia.

peterpeter
źródło
Dwa pytania - co pokazuje pierwszy wątek? Czy jest to statystyka GAP dla tych samych danych? Dlaczego miałby wyglądać inaczej niż drugi (który widzę to GAP). Z jakich funkcji R korzystałeś? Drugie pytanie: czy zastosowałeś zasadę „błąd standardowy 1”, aby wybrać 6 dla drugiego wykresu?
Deathkill14
Istnieją więc dwa różne podejścia do grupowania. Pierwszy oparty na szeregach czasowych - sprzedaż w ciągu 26 tygodni, a ja grupowałem dane w oparciu o dynamiczne dopasowanie czasowe. Drugim podejściem było określenie parametrów krzywej wzrostu klastra, również w oparciu o dynamiczne dopasowanie czasowe. Użyłem w clusGapoparciu o globalmax, nie wiedziałem jak zaimplementować maxSE.
peterpeter

Odpowiedzi:

11

kkk=2)

Statystyka luk

Jednak w wielu rzeczywistych zestawach danych klastry nie są tak dobrze zdefiniowane i chcemy być w stanie zrównoważyć maksymalizację statystyki luki z parsymonem modelu. Przykład: pierwszy obraz OP. Jeśli maksymalizujemy samą statystykę luk , powinniśmy wybrać model z 30 (lub nawet więcej!) Klastrami. Zakładając, że ta fabuła będzie się nadal powiększać, oczywiście wyniki są mniej przydatne. Więc Tibshirani sugeruje metodę 1-standardowego błędu :

k^kLuka(k)Luka(k+1)-sk+1

Co nieformalnie określa moment, w którym tempo wzrostu statystyki luki zaczyna „zwalniać”.

k

Obraz z komentarzem 1

k>1k1

kclusGapkfirstSEmaxk=30k=19

Źródło: Robert Tibshirani, Guenther Walther i Trevor Hastie (2001). Szacowanie liczby klastrów w zbiorze danych za pomocą statystyki luki.

jayelm
źródło
1
kk
Dziękujemy za zwrócenie uwagi na kompromis między maksymalizacją statystyki luki a uzyskaniem parsimony modelu
cloudscomputing