Mam dane na temat czasu między uderzeniami serca człowieka. Jednym ze wskazań ektopowych (dodatkowych) uderzeń jest to, że przedziały te są skupione wokół trzech wartości zamiast jednej. Jak mogę uzyskać ilościową miarę tego?
Chcę porównać wiele zestawów danych, a te dwa 100-bin histogramy są reprezentatywne dla wszystkich z nich.
Mógłbym porównać wariancje, ale chcę, aby mój algorytm mógł wykryć, czy w każdym przypadku jest jeden czy trzy klastry, bez porównywania z innymi przypadkami.
Jest to przeznaczone do przetwarzania offline, więc w razie potrzeby dostępna jest duża moc obliczeniowa.
clustering
Mikołaj
źródło
źródło
Odpowiedzi:
Radzę mocno przed użyciem k-średnich tutaj. Wyniki dla różnych wartości k nie są bardzo dobrze porównywalne. Metoda jest po prostu prymitywną heurystyką. Jeśli naprawdę chcesz użyć klastrowania, skorzystaj z klastrowania EM, ponieważ twoje dane wydają się zawierać normalne dystrybucje. I sprawdź swoje wyniki!
Zamiast tego oczywistym podejściem jest próba dopasowania jednej funkcji Gaussa i (na przykład przy użyciu metody Levenberga-Marquarda) dopasowania trzech funkcji Gaussa, być może ograniczona do tej samej wysokości (aby uniknąć degeneracji).
Następnie przetestuj, która z dwóch rozkładów lepiej pasuje.
źródło
Dopasuj rozkład mieszanki do danych, coś w rodzaju mieszanki 3 rozkładów normalnych, a następnie porównaj prawdopodobieństwo tego dopasowania z dopasowaniem pojedynczego rozkładu normalnego (za pomocą testu współczynnika prawdopodobieństwa lub AIC / BIC).
flexmix
PakietR
może być pomocne.źródło
Jeśli chcesz użyć klastrowania K-oznacza, potrzebujesz sposobu na porównanie przypadków i . Jednym podejściem byłoby wykorzystanie statystyki luki z Tibshirani i in. i wybierz który zapewnia lepszą wartość. W SLmisc dostępna jest implementacja R , chociaż ta konkretna funkcja spróbuje , więc musisz zadbać o to, aby tylko lub można było zwrócić jako wartość optymalną.K.= 1 K.= 3 K. K.= 1 , 2 , 3 K.= 1 K.= 3
źródło
Użyj algorytmu grupowania K-średnich, aby zidentyfikować różne środki
Poszukaj funkcji KNN w poszukiwaniu R, aby znaleźć odpowiednią funkcję
źródło
kmeans
funkcją Matlaba . Wynikowe środki różnią się znacznie w zależności od próby. (Zła heurystyka w tej implementacji?) W przypadku zestawu 1-klastrowego czasami otrzymuję środki w przybliżeniu (270 293 693), czasami (około 260 285 308). W przypadku zestawu 3-klastrowego niektóre odpowiedzi to (196, 324, 468) i (290, 459, 478).