Klasyczne zestawy danych do analizy sieci

10

Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to:

Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania / oceny / uczenia się:

  1. środki centralności;
  2. algorytmy klastrowania sieci.

Nie potrzebuję ogromnej listy publicznie dostępnych sieci / wykresów, ale kilka naprawdę niezbędnych zestawów danych.

EDYTOWAĆ:

Dokładne funkcje „złotego standardowego zestawu danych” są dość trudne, ale oto kilka przemyśleń. Myślę, że prawdziwy klasyczny zestaw danych powinien spełniać następujące kryteria:

  • Wiele odniesień w artykułach i podręcznikach;
  • Włączenie do znanych pakietów oprogramowania do analizy sieci;
  • Wystarczający czas istnienia;
  • Wykorzystanie na wielu kursach do analizy grafów.

Jeśli chodzi o obszar moich zainteresowań, potrzebuję również etykietowanych klas dla wierzchołków i / lub wstępnie obliczonych (lub predefiniowanych) „wyników autorytetów” (tj. Oszacowań centralności). Po zadaniu tego pytania kontynuowałem wyszukiwanie, a oto kilka odpowiednich przykładów:

  • Zachary's Karate Club : wprowadzony w 1977 roku, cytowany ponad 1,5 tys. Razy (według Google Scholar), wierzchołki mają atrybut Frakcja (która może być używana do grupowania).
  • Erdos Collaboration Network : niestety nie znalazłem tej sieci w postaci pliku danych, ale jest ona dość znana, a jeśli ktoś wzbogaci sieć o dane specjalizacji matematyków, można ją również wykorzystać do testowania algorytmów klastrowania.
sobach
źródło
1
Myślę, że możesz poprawić to pytanie, definiując „złoty standardowy zestaw danych” w bardziej obiektywny sposób. Co sprawia, że ​​jest to „must know”? Czy należy się do tego odwoływać w wielu podręcznikach? Używany w wielu opublikowanych modelach? Itd. W przeciwnym razie odpowiedzi będą subiektywne ORAZ będą się zmieniać w miarę upływu czasu. Zła kombinacja tutaj.
Air

Odpowiedzi:

5

To, czego szukasz, można znaleźć w KONECT (strona jest niedostępna, piszę to, ale wkrótce powinna zostać naprawiona!). To prawie najbardziej wszechstronny zbiór danych do analizy sieci. Ale pytanie brzmi, który z nich jest bardziej standardowy w użyciu?

Cóż, nie ma jednoznacznej odpowiedzi poza Klubem Karate Zachary'ego!

Jeśli dokonasz przeglądu literatury w algorytmach wykrywania społeczności, zobaczysz, że prawie wszystkie świecące artykuły korzystają z różnych sieci. Moja sugestia dotyczy tego, co zrobili Andrea Lancichinetti i Santo Fortunato w przypadku wykresów porównawczych. Zaproponowali kilka algorytmów generowania wykresów porównawczych, np. Ten .

Mam nadzieję, że to pomoże :)

Kasra Manshaei
źródło
możesz to zlokalizować za pomocą maszyny powrotnej, jej najlepszego przyjaciela web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
albert
4

Może możesz sprawdzić tutaj - http://snap.stanford.edu/data/

Dla każdego zestawu danych zobaczysz także odniesienia do utworów, w których zostały użyte

Aleksiej Grigoriew
źródło
1

Jedyne, o czym wiem, to dane porównawcze dla baz danych Graph, takich jak Neo4j.

Możesz znaleźć linki podobne do tego: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

gdzie można znaleźć dane do przetestowania analizy sieci i teorii grafów.

Ponadto możesz grać z interfejsem API Twitter / Facebook, aby zbierać własne dane. Jest to również sugestia w przypadku, gdy nie znajdziesz danych, których szukasz.

adesantos
źródło
Dzięki, ale nie do końca tego szukam. Zobacz aktualizację, aby uzyskać więcej informacji.
sobach