Pytania oznaczone «clustering»

44

Czy potrzebna jest normalizacja średnia i skalowanie funkcji dla grupowania k-średnich?

Jakie są najlepsze (zalecane) kroki przetwarzania wstępnego przed wykonaniem

clustering normalization k-means

42

Jak przeprowadzić wykrywanie społeczności w ważonej sieci / wykresie społecznościowym?

Zastanawiam się, czy ktoś mógłby zasugerować, jakie są dobre punkty wyjścia, jeśli chodzi o wykrywanie społeczności / partycjonowanie / grupowanie wykresów na wykresie z ważonymi , nieukierunkowanymi krawędziami. Wykres ma około 3 miliony krawędzi, a każda krawędź wyraża stopień podobieństwa między...

clustering data-visualization networks partitioning modularity

40

Klaster dynamicznego dopasowywania w czasie

Jakie byłoby podejście do korzystania z dynamicznego dopasowania czasu (DTW) w celu grupowania szeregów czasowych? Czytałem o DTW jako sposobie znajdowania podobieństwa między dwoma szeregami czasowymi, podczas gdy można je przesunąć w czasie. Czy mogę użyć tej metody jako miary podobieństwa dla...

time-series clustering

38

„Grupowanie” szeregów czasowych w R.

Mam zestaw danych szeregów czasowych. Każda seria obejmuje ten sam okres, chociaż rzeczywiste daty w każdej serii czasowej mogą nie być dokładnie w jednej linii. To znaczy, jeśli szeregi czasowe miałyby zostać odczytane w matrycy 2D, wyglądałoby to tak: date T1 T2 T3 .... TN 1/1/01 100 59 42...

r time-series clustering cointegration

35

Jak wybrać metodę grupowania? Jak sprawdzić poprawność rozwiązania klastrowego (aby uzasadnić wybór metody)?

Jednym z największych problemów związanych z analizą skupień jest to, że może się zdarzyć, że będziemy musieli wyciągnąć odmienne wnioski, gdy oprą się na różnych zastosowanych metodach klastrowania (w tym różnych metodach łączenia w hierarchicznym klastrze). Chciałbym poznać Twoją opinię na ten...

clustering validation model-evaluation hierarchical-clustering

34

Hierarchiczne grupowanie z danymi mieszanego typu - jakiej odległości / podobieństwa użyć?

W moim zestawie danych mamy zarówno zmienne ciągłe, jak i naturalnie dyskretne. Chcę wiedzieć, czy możemy przeprowadzać hierarchiczne grupowanie przy użyciu obu typów zmiennych. A jeśli tak, jaki pomiar odległości jest

clustering similarities distance-functions mixed-type-data

34

Jak interpretować średnią z fabuły Silhouette?

Próbuję użyć wykresu sylwetki, aby określić liczbę klastrów w moim zestawie danych. Biorąc pod uwagę zestaw danych Train , użyłem następującego kodu Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s =...

data-visualization clustering matlab

34

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Dlaczego t-SNE nie jest stosowany jako technika redukcji wymiarów do grupowania lub klasyfikacji?

W ostatnim zadaniu powiedziano nam, abyśmy używali PCA na cyfrach MNIST, aby zmniejszyć wymiary z 64 (8 x 8 obrazów) do 2. Następnie musieliśmy grupować cyfry za pomocą Gaussian Mixture Model. PCA wykorzystujące tylko 2 główne komponenty nie daje wyraźnych klastrów, w wyniku czego model nie jest w...

classification clustering pca dimensionality-reduction tsne

33

(Dlaczego) Czy SOM w stylu Kohonena popadł w niełaskę?

O ile mogę stwierdzić, SOM w stylu Kohonen osiągnęły szczyt około 2005 roku i ostatnio nie spotkały się z tak dużą przychylnością. Nie znalazłem żadnego artykułu, który mówi, że SOM zostały uwzględnione inną metodą lub okazały się równoważne z czymś innym (w każdym razie w większych wymiarach). Ale...

clustering self-organizing-maps

33

Wybór właściwej metody łączenia dla hierarchicznego grupowania

Wykonuję hierarchiczne grupowanie danych zebranych i przetworzonych ze zrzutu danych reddit w Google BigQuery. Mój proces jest następujący: Pobierz najnowsze 1000 postów w / r / politics Zbierz wszystkie komentarze Przetwarzaj dane i oblicz n x mmacierz danych (n: users / samples, m: posts /...

clustering distance unsupervised-learning hierarchical-clustering

33

Grupowanie zestawu danych ze zmiennymi dyskretnymi i ciągłymi

Mam zestaw danych X, który ma 10 wymiarów, z których 4 to wartości dyskretne. W rzeczywistości te 4 zmienne dyskretne są porządkowe, tzn. Wyższa wartość implikuje wyższy / lepszy semantyczny. 2 z tych zmiennych dyskretnych są jakościowe w tym sensie, że dla każdej z tych zmiennych odległość np. Od...

clustering k-means discrete-data continuous-data gaussian-mixture

32

W jaki sposób PCA pomógłby w analizie skupień metodą k-średnich?

Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można...

clustering pca k-means dimensionality-reduction

32

Jakie kryteria zatrzymania dla aglomeracyjnego hierarchicznego grupowania są stosowane w praktyce?

Znalazłem obszerną literaturę proponującą wszelkiego rodzaju kryteria (np. Glenn i in. 1985 (pdf) i Jung i in. 2002 (pdf)). Jednak większość z nich nie jest tak łatwa do wdrożenia (przynajmniej z mojej perspektywy). Korzystam z scipy.cluster.hierarchy, aby uzyskać hierarchię klastrów, a teraz...

clustering

31

Grupowanie długiej listy ciągów (słów) w grupy podobieństwa

Mam pod ręką następujący problem: Mam bardzo długą listę słów, ewentualnie imion, nazwisk itp. Muszę utworzyć listę słów w taki sposób, aby podobne słowa, na przykład słowa o podobnej odległości edycji (Levenshtein) pojawiły się w ten sam klaster. Na przykład „algorytm” i „alogrithm” powinny mieć...

clustering k-means pattern-recognition

30

Analiza klas ukrytych a analiza skupień - różnice w wnioskach?

Jakie są różnice w wnioskach, które można wyciągnąć z analizy ukrytej klasy (LCA) w porównaniu z analizą skupień? Czy to prawda, że LCA zakłada ukrytą zmienną, która powoduje powstanie klas, podczas gdy analiza skupień jest empirycznym opisem skorelowanych atrybutów z algorytmu klastrowania?...

clustering latent-variable latent-class

29

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Porównanie hierarchicznych dendrogramów grupowania uzyskanych różnymi odległościami i metodami

[Początkowy tytuł „Pomiar podobieństwa dla hierarchicznych drzew klastrowych” został później zmieniony przez @ttnphns, aby lepiej odzwierciedlić temat] Przeprowadzam szereg hierarchicznych analiz skupień na ramce danych rekordów pacjentów (np. Podobnie do

r clustering distance-functions similarities dendrogram

28

Jak zrobić zmniejszenie wymiarów w R.

Mam macierz, w której (i, j) mówi mi, ile razy przeglądałem stronę j. Istnieje 27 000 osób i 95 000 stron. Chciałbym mieć garść „wymiarów” lub „aspektów” w przestrzeni stron, które odpowiadałyby zestawom stron często oglądanych razem. Moim ostatecznym celem jest wtedy, aby móc obliczyć, jak często...

r clustering dimensionality-reduction