Chcę zebrać ~ 22000 punktów. Wiele algorytmów klastrowania działa lepiej przy wstępnych domysłach o wyższej jakości. Jakie istnieją narzędzia, które mogą dać mi dobry pogląd na przybliżony kształt danych?
Chcę mieć możliwość wyboru własnej metryki odległości, więc program, w którym mogę nakarmić listę par odległości, byłby w porządku. Chciałbym móc zrobić coś takiego, jak podświetlić region lub klaster na wyświetlaczu i uzyskać listę punktów danych znajdujących się w tym obszarze.
Wolne oprogramowanie preferowane, ale mam już SAS i MATLAB.
data-visualization
clustering
software
anonimowy
źródło
źródło
Badanie wyników grupowania w dużych wymiarach można wykonać w R, używając pakietów klastra i gcExplorer . Poszukaj więcej tutaj .
źródło
(Kilka miesięcy później) dobrym sposobem na zobrazowanie klastrów k i zobaczenie efektu różnych k jest zbudowanie drzewa o minimalnej rozpiętości i spojrzenie na najdłuższe krawędzie. Na przykład,
Tutaj jest 10 klastrów z 9 najdłuższymi krawędziami 855 899 942 954 1003 1005 1069 1134 1267.
W przypadku 9 klastrów zwiń krawędź cyjan 855; dla 8 fioletowe 899; i tak dalej.
- Wayne, Greedy Algorytmy .
22000 punktów, odległości parami 242M, weź ~ 1 gigabajt (float32): może się zmieścić.
Aby wyświetlić wysokowymiarowe drzewo lub wykres w 2D, zobacz Skalowanie wielowymiarowe (także z Kruskala) i ogromną literaturę na temat zmniejszania wymiarów. Jednak w dim> 20 powiedziano, że większość odległości będzie w pobliżu mediany, więc uważam, że redukcja wymiarów nie może tam działać.
źródło
Miałem dobre doświadczenia z KNIME podczas jednego z moich projektów. To doskonałe rozwiązanie do szybkiego eksploracji eksploracyjnej i tworzenia grafów. Ponadto zapewnia płynną integrację modułów R i Weka.
źródło
Zobacz także ELKI , oprogramowanie do eksploracji danych typu open source. Wikimedia commons ma galerię ze zdjęciami wykonanymi za pomocą ELKI , z których wiele związanych jest z analizą skupień.
źródło
Spójrz na Cluster 3.0 . Nie jestem pewien, czy zrobi wszystko, co chcesz, ale jest dość dobrze udokumentowany i pozwala wybierać spośród kilku wskaźników odległości. Fragment wizualizacji odbywa się za pośrednictwem osobnego programu o nazwie Java TreeView ( zrzut ekranu ).
źródło
GGobi wygląda na to interesujące. Innym podejściem może być traktowanie macierzy podobieństwa / odwrotnych macierzy jako macierzy przylegania do sieci i wprowadzanie ich do procedury analizy sieci (np. Igraph w R lub być może Pajek). Przy takim podejściu eksperymentowałbym z cięciem odległości węzłów do dwójkowego wiązania w różnych punktach cięcia.
źródło
Weka to program typu open source do eksploracji danych (wirtten i rozszerzalny w Javie), Orange to program i biblioteka typu open source do eksploracji danych i uczenia maszynowego (napisane w języku Python). Oba umożliwiają wygodne i wydajne wizualne badanie danych wielowymiarowych
źródło
Bezpłatne oprogramowanie numeryczne DataMelt zawiera bibliotekę Java o nazwie JMinHep. Zapoznaj się z instrukcją w sekcji „Grupowanie danych”. Zapewnia GUI do wizualizacji wielowymiarowych punktów danych w XY i uruchamia szereg algorytmów klastrowania danych.
źródło