Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to:
Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania / oceny / uczenia się:
- środki centralności;
- algorytmy klastrowania sieci.
Nie potrzebuję ogromnej listy publicznie dostępnych sieci / wykresów, ale kilka naprawdę niezbędnych zestawów danych.
EDYTOWAĆ:
Dokładne funkcje „złotego standardowego zestawu danych” są dość trudne, ale oto kilka przemyśleń. Myślę, że prawdziwy klasyczny zestaw danych powinien spełniać następujące kryteria:
- Wiele odniesień w artykułach i podręcznikach;
- Włączenie do znanych pakietów oprogramowania do analizy sieci;
- Wystarczający czas istnienia;
- Wykorzystanie na wielu kursach do analizy grafów.
Jeśli chodzi o obszar moich zainteresowań, potrzebuję również etykietowanych klas dla wierzchołków i / lub wstępnie obliczonych (lub predefiniowanych) „wyników autorytetów” (tj. Oszacowań centralności). Po zadaniu tego pytania kontynuowałem wyszukiwanie, a oto kilka odpowiednich przykładów:
- Zachary's Karate Club : wprowadzony w 1977 roku, cytowany ponad 1,5 tys. Razy (według Google Scholar), wierzchołki mają atrybut Frakcja (która może być używana do grupowania).
- Erdos Collaboration Network : niestety nie znalazłem tej sieci w postaci pliku danych, ale jest ona dość znana, a jeśli ktoś wzbogaci sieć o dane specjalizacji matematyków, można ją również wykorzystać do testowania algorytmów klastrowania.
Odpowiedzi:
To, czego szukasz, można znaleźć w KONECT (strona jest niedostępna, piszę to, ale wkrótce powinna zostać naprawiona!). To prawie najbardziej wszechstronny zbiór danych do analizy sieci. Ale pytanie brzmi, który z nich jest bardziej standardowy w użyciu?
Cóż, nie ma jednoznacznej odpowiedzi poza Klubem Karate Zachary'ego!
Jeśli dokonasz przeglądu literatury w algorytmach wykrywania społeczności, zobaczysz, że prawie wszystkie świecące artykuły korzystają z różnych sieci. Moja sugestia dotyczy tego, co zrobili Andrea Lancichinetti i Santo Fortunato w przypadku wykresów porównawczych. Zaproponowali kilka algorytmów generowania wykresów porównawczych, np. Ten .
Mam nadzieję, że to pomoże :)
źródło
Może możesz sprawdzić tutaj - http://snap.stanford.edu/data/
Dla każdego zestawu danych zobaczysz także odniesienia do utworów, w których zostały użyte
źródło
Jedyne, o czym wiem, to dane porównawcze dla baz danych Graph, takich jak Neo4j.
Możesz znaleźć linki podobne do tego: http://istc-bigdata.org/index.php/benchmarking-graph-databases/
gdzie można znaleźć dane do przetestowania analizy sieci i teorii grafów.
Ponadto możesz grać z interfejsem API Twitter / Facebook, aby zbierać własne dane. Jest to również sugestia w przypadku, gdy nie znajdziesz danych, których szukasz.
źródło