Pytania oznaczone «clustering»

13
Najnowocześniejsza deduplikacja

Jakie są najnowocześniejsze metody deduplikacji rekordów? Deduplikacja jest również czasami nazywana: łączenie rekordów, rozpoznawanie jednostek, rozpoznawanie tożsamości, scalanie / czyszczenie. Wiem na przykład o CBLOCK [1]. Byłbym wdzięczny, gdyby odpowiedzi zawierały również odniesienia do...

12
Grupowanie danych przestrzennych w R.

Mam zestaw danych miesięcznych dotyczących temperatury powierzchni morza (SST) i chcę zastosować metodologię klastrową do wykrywania regionów o podobnych wzorcach SST. Mam zestaw miesięcznych plików danych od 1985 do 2009 roku i chcę zastosować klastrowanie do każdego miesiąca jako pierwszy...

12
średnie k || alias Scalable K-Means ++

Bahman Bahmani i in. wprowadzono k-średnich ||, która jest szybszą wersją k-średnich ++. Algorytm ten pochodzi ze strony 4 ich pracy , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., i Vassilvitskii, S. (2012). Skalowalne k-średnie ++. Postępowanie z VLDB Endowment , 5 (7), 622-633. Niestety...

12
Przypisz wagi do zmiennych w analizie skupień

Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie. Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić w(A)=50% w(B)=25% w(C)=10% w(D)=15% Zastanawiam się, czy jedno z...

12
Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby...

12
Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?

Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy...

12
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...