Pytania oznaczone «clustering»

13

Klaster Big Data w R i czy próbkowanie jest istotne?

Jestem nowy w nauce o danych i mam problem ze znalezieniem klastrów w zestawie danych z 200 000 wierszy i 50 kolumnami w R. Ponieważ dane mają zarówno zmienne liczbowe, jak i nominalne, metody takie jak K-średnie, które wykorzystują euklidesową miarę odległości, nie wydają się właściwym wyborem....

r clustering sampling large-data

13

Co robisz, gdy nie ma punktu łokcia dla grupowania kmeanów

Nauczyłem się, że wybierając liczbę klastrów, powinieneś poszukać punktu łokcia dla różnych wartości K. Wykreśliłem wartości withinss dla wartości k od 1 do 10, ale nie widzę wyraźnego łokieć. Co robisz w takim

clustering k-means

13

Najnowocześniejsza deduplikacja

Jakie są najnowocześniejsze metody deduplikacji rekordów? Deduplikacja jest również czasami nazywana: łączenie rekordów, rozpoznawanie jednostek, rozpoznawanie tożsamości, scalanie / czyszczenie. Wiem na przykład o CBLOCK [1]. Byłbym wdzięczny, gdyby odpowiedzi zawierały również odniesienia do...

clustering data-cleaning record-linkage

12

Jak mogę sprawdzić, czy moje grupowanie danych binarnych jest znaczące

Robię analizy koszyka na zakupy. Mój zestaw danych to zbiór wektorów transakcji z produktami, które są kupowane. Kiedy stosuję k-średnich w transakcjach, zawsze otrzymam jakiś wynik. Matryca losowa prawdopodobnie pokazywałaby także niektóre skupienia. Czy istnieje sposób na sprawdzenie, czy...

clustering statistical-significance binary-data

12

Polecane książki lub artykuły jako wprowadzenie do analizy skupień?

Pracuję nad małym (200 mln) fragmentem tekstu, który chcę zbadać za pomocą analizy skupień. Jakie książki lub artykuły na ten temat poleciłbyś?

machine-learning references clustering

12

Grupowanie danych przestrzennych w R.

Mam zestaw danych miesięcznych dotyczących temperatury powierzchni morza (SST) i chcę zastosować metodologię klastrową do wykrywania regionów o podobnych wzorcach SST. Mam zestaw miesięcznych plików danych od 1985 do 2009 roku i chcę zastosować klastrowanie do każdego miesiąca jako pierwszy...

r clustering spatial

12

średnie k || alias Scalable K-Means ++

Bahman Bahmani i in. wprowadzono k-średnich ||, która jest szybszą wersją k-średnich ++. Algorytm ten pochodzi ze strony 4 ich pracy , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., i Vassilvitskii, S. (2012). Skalowalne k-średnie ++. Postępowanie z VLDB Endowment , 5 (7), 622-633. Niestety...

clustering k-means

12

Solidna metoda klastrowa dla mieszanych danych w języku R

Chcę skupić mały zestaw danych (64 obserwacje 4 zmiennych interwałowych i pojedynczej zmiennej kategorialnej trzyczynnikowej). Teraz jestem całkiem nowy w analizie skupień, ale zdaję sobie sprawę, że od czasów, gdy hierarchiczne grupowanie lub k-średnie były jedynymi dostępnymi opcjami, nastąpił...

clustering model-based-clustering mixed-type-data

12

Czy mogę użyć PCA do dokonania wyboru zmiennych do analizy skupień?

Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi...

clustering pca feature-selection factor-analysis

12

Skąd mam wiedzieć, że mój algorytm grupowania k-średnich cierpi z powodu przekleństwa wymiarowości?

Uważam, że tytuł tego pytania mówi wszystko.

clustering k-means high-dimensional

12

Interpretacja wyniku k-średnich w R

Użyłem kmeansinstrukcji R do wykonania algorytmu k-średnich w zestawie danych tęczówki Andersona. Mam pytanie dotyczące niektórych parametrów, które otrzymałem. Wyniki są następujące: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 W takim...

r machine-learning clustering interpretation k-means

12

Co zrobić, gdy macierz kowariancji próbki nie jest odwracalna?

Pracuję nad niektórymi technikami grupowania, w których dla danej grupy wektorów wymiaru d zakładam wielowymiarowy rozkład normalny i obliczam przykładowy średni wektor d-wymiarowy i macierz kowariancji próbki. Potem, gdy stara się zdecydować, czy nowy, niewidzialny, d-wymiarowy wektor należy do...

clustering multivariate-analysis covariance covariance-matrix matrix-inverse

12

Przypisz wagi do zmiennych w analizie skupień

Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie. Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić w(A)=50% w(B)=25% w(C)=10% w(D)=15% Zastanawiam się, czy jedno z...

clustering stata

12

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby...

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

12

Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?

Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy...

machine-learning clustering cross-validation unsupervised-learning

12

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

11

Grupowanie bardzo wypaczonych, zliczanie danych: jakieś sugestie (transformacja itp.)?

Podstawowy problem Oto mój podstawowy problem: próbuję zgrupować zestaw danych zawierający niektóre bardzo wypaczone zmienne z licznikami. Zmienne zawierają wiele zer i dlatego nie są zbyt pouczające dla mojej procedury klastrowania - która prawdopodobnie jest algorytmem k-średnich. Dobra,...

clustering data-transformation k-means count-data compositional-data

11

Odległość między dwiema mieszankami gaussowskimi do oceny rozwiązań klastrowych

Korzystam z szybkiej symulacji, aby porównać różne metody klastrowania, i obecnie mam problem z oceną rozwiązań klastrowych. Znam różne miary sprawdzania poprawności (wiele z nich znajduje się w klaster.stats () w R), ale zakładam, że najlepiej je wykorzystać, jeśli szacunkowa liczba klastrów...

clustering kullback-leibler gaussian-mixture

11

Jaka intuicja kryje się za metryką zmienności informacji (VI) do walidacji klastra?

Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VImetryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam...

r clustering validation intuition

11

Czy modułowość sieci Newmana działa dla podpisanych, ważonych wykresów?

Modułowość wykresu jest zdefiniowana na stronie Wikipedii . W innym poście ktoś wyjaśnił, że modułowość można łatwo obliczyć (i zmaksymalizować) dla sieci ważonych, ponieważ macierz przyległości może również zawierać wartościowe powiązania. Chciałbym jednak wiedzieć, czy zadziała to również z...

clustering data-visualization networks partitioning modularity