Pytania oznaczone «k-means»

k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana

365
Jak zrozumieć wady K-średnich

K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu...

77
Grupowanie na wyjściu t-SNE

Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie...

60
Jaki jest związek między grupowaniem k-średnich a PCA?

Powszechną praktyką jest stosowanie PCA (analiza głównego składnika) przed algorytmem grupowania (takim jak k-średnie). Uważa się, że poprawia to wyniki klastrowania w praktyce (redukcja hałasu). Jestem jednak zainteresowany porównawczym i dogłębnym badaniem związku między PCA i k-średnich. Na...

54
Jak zdecydować o właściwej liczbie klastrów?

Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k....

44
Czy ważne jest skalowanie danych przed grupowaniem?

Znalazłem ten samouczek , który sugeruje, że powinieneś uruchomić funkcję skalowania na elementach przed grupowaniem (uważam, że konwertuje dane do wyników Z). Zastanawiam się, czy to konieczne. Pytam głównie dlatego, że nie mam łokcia, gdy nie skaluję danych, ale znika, gdy jest skalowane....

29
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

24
Określ różne klastry danych 1d z bazy danych

Mam tabelę bazy danych przesyłania danych między różnymi węzłami. To ogromna baza danych (z prawie 40 milionami transferów). Jednym z atrybutów jest liczba transferów bajtów (nbajtów) w zakresie od 0 bajtów do 2 tera bajtów. Chciałbym zgrupować nbytes w taki sposób, aby dane k klastrów zawierały...

22
Wykonywanie grupowania K-średnich (lub jego bliskich krewnych) za pomocą macierzy odległości, a nie danych punkt po cechach

Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy...