Pytania oznaczone «clustering»

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

365
Jak zrozumieć wady K-średnich

K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu...

77
Grupowanie na wyjściu t-SNE

Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie...

77
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29,...

73
Wybór metody grupowania

Używając analizy skupień w zbiorze danych do grupowania podobnych przypadków, należy wybierać spośród wielu metod grupowania i miar odległości. Czasami jeden wybór może wpływać na drugi, ale istnieje wiele możliwych kombinacji metod. Czy ktoś ma jakieś zalecenia dotyczące wyboru różnych...

60
Jaki jest związek między grupowaniem k-średnich a PCA?

Powszechną praktyką jest stosowanie PCA (analiza głównego składnika) przed algorytmem grupowania (takim jak k-średnie). Uważa się, że poprawia to wyniki klastrowania w praktyce (redukcja hałasu). Jestem jednak zainteresowany porównawczym i dogłębnym badaniem związku między PCA i k-średnich. Na...

60
Gdzie wyciąć dendrogram?

Hierarchiczne grupowanie może być reprezentowane przez dendrogram. Cięcie dendrogramu na pewnym poziomie daje zestaw klastrów. Cięcie na innym poziomie daje kolejny zestaw klastrów. Jak wybrałbyś miejsce cięcia dendrogramu? Czy istnieje coś, co moglibyśmy uznać za optymalny punkt? Jeśli patrzę na...

54
Jak zdecydować o właściwej liczbie klastrów?

Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k....

52
Grupowanie za pomocą macierzy odległości

Mam (symetryczną) macierz, Mktóra reprezentuje odległość między każdą parą węzłów. Na przykład, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60 0 20 20 20...

46
Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV)...