Szukam zestawów danych 2-wymiarowych punktów danych (każdy punkt danych jest wektorem dwóch wartości (x, y)) o różnych rozkładach i formach. Pomocny byłby również kod do generowania takich danych. Chcę ich użyć do wykreślenia / wizualizacji działania niektórych algorytmów klastrowych. Oto kilka przykładów:
9
Odpowiedzi:
R zawiera wiele zestawów danych i wygląda na to, że odtworzenie większości przytoczonych przykładów za pomocą kilku wierszy kodu nie byłoby wielkim problemem. Przydatny może być również pakiet mlbench , w szczególności syntetyczne zestawy danych zaczynające się od
mlbench.*
. Niektóre ilustracje podano poniżej.Dodatkowe przykłady znajdziesz w widoku zadań klastra w CRAN. Na przykład pakiet fpc ma wbudowany generator zestawów testowych klastrowanych „w kształcie twarzy” (
rFace
).Podobne uwagi dotyczą Pythona, w którym znajdziesz interesujące testy porównawcze i zestawy danych do grupowania w scikit-learn .
W repozytorium uczenia maszynowego UCI znajduje się również wiele zestawów danych , ale lepiej samemu symulować dane w wybranym języku.
źródło
Oto kilka zestawów danych zaprojektowanych dokładnie do tego zadania:
Pakiet podstawowych problemów klastrowych firmy Ultsch
źródło
Ten test porównawczy klastrowania zabawek zawiera różne zestawy danych w formacie ARFF (które można łatwo przekonwertować do formatu CSV), głównie z etykietami typu ground true. Benchmark powinien zweryfikować podstawowe pożądane właściwości algorytmów klastrowania. Większość zestawów danych pochodzi z dokumentów klastrowych, takich jak:
źródło
ELKI zawiera kilka zestawów danych (sprawdź także testy jednostkowe, zawierają one znacznie więcej niż te na stronie internetowej, wraz z ustawieniami parametrów).
Zawiera również dość elastyczny generator danych.
źródło
Oto konfigurowalny generator klastrów. Dotyczy tylko pewnej klasy zestawów danych, ale z pewnością można go wykorzystać do badania algorytmów klastrowych.
Oto przykład rodzaju klastrów, które może tworzyć:
Przynależność do klastra jest zapisywana w pliku tekstowym. Kod jest open source na licencji MIT.
źródło
Ten skrypt Matlab generuje dane 2D do grupowania. Akceptuje kilka parametrów, aby wygenerowane dane były zgodne z wymaganiami użytkownika.
źródło
Nie mogę uwierzyć, że nikt nie wspomniał o danych Iris Fishera.
Nie sądzę, że widziałem technikę grupowania, która nie wykorzystuje danych tęczówki jako przykładu.
W r wystarczy wpisać „tęczówkę”, aby uzyskać dostęp do danych.
Oto przykład ładnej (i typowej) fabuły tęczówki: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
źródło