Zestawy danych do przykładów wizualizacji danych, nauczania i badań

9

Szukam istniejących zestawów danych, których możemy użyć do przetestowania kilku technik danych, które badamy.

Znam kilka zasobów, takich jak te zawarte w R (spróbuj plot(Orange)lub zobacz tutaj ).

Ale chciałbym zrobić krok do przodu:

  • Jakie są najlepsze zestawy danych w świecie rzeczywistym do testowania narzędzia do wizualizacji?
  • Z jakich zestawów danych korzystałeś w pracach naukowych lub na slajdach o danych?
  • Jaki jest najlepszy przykład z prawdziwego świata, który pokazuje zalety tworzenia wykresów?
robermorales
źródło
2
Wiele dobrych rzeczywistych przykładów, z niektórymi połączonymi projektami dostarczającymi zestawy danych (ale większość niestety nie): infosthetics.com
WSkid
1
Czy wyraźnie szukasz bezpłatnych zestawów danych?
Fomite,
3
Wizualizacja zależy od kontekstu i odbiorców (między innymi), co sugeruje, że „najlepszy” jest dwuznaczny w tym kontekście. Możesz uzyskać bardziej skoncentrowane, trafne odpowiedzi, wskazując, jakie „techniki” badasz.
whuber
1
@whuber Techniques, o automatyzacji wizualizacji. Najlepiej dla wyjaśnienia. Najlepsze dla testu porównawczego.
robermorales,
@EpiGrad Tak, tak bezpłatnie, jak to możliwe.
robermorales,

Odpowiedzi:

5

Istnieje duża liczba baz danych dostępnych w Internecie. W zależności od tematu możesz uzyskać różne źródła.

Na przykład w obszarze tematycznym Human Development możesz mieć źródła danych pod adresem (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Do obserwacji zmian klimatu dostępna jest strona internetowa z danymi klimatycznymi o wysokiej rozdzielczości (http://www.ipcc-data.org/), na przykład:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Oba przykłady zawierają prawdziwe dane, wykorzystane w opublikowanych pracach naukowych, z dużą ilością danych. Dane związane z czasem i / lub przestrzenią. Możliwości wizualizacji tych danych są nieograniczone.

Jose Zubcoff
źródło
który z możliwych zestawów danych z tych wspaniałych źródeł lubisz najbardziej? dzięki
robermorales,
1
To zależy od przydatności „smaku” wizualizacji. Na przykład, aby eksplorować / pokazywać szeregi czasowe, sieć IPCC ma wystarczającą ilość danych i jest szeroko stosowana (oczywiście do analizy zmian klimatu), aby pokazać dane przestrzenne, witryna Human Development zawiera wiele danych związanych z przestrzenią kosmiczną, a także dane dotyczące czas.
Jose Zubcoff,
Twój pierwszy link jest uszkodzony (błąd DNS).
horaceT
Niestety pierwszy link jest uszkodzony (5 lat później), ale istnieje wiele otwartych danych tam: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff,
9

Lubię używać zestawów danych Anscombe (dostępnych również w R), aby pokazać znaczenie kreślenia podczas regresji. Jeśli nie jesteś zaznajomiony, otrzymujesz tę samą linię regresji i diagnostykę ze wszystkich czterech zestawów danych, mimo że same zestawy wyglądają zupełnie inaczej. Możesz wziąć poniższe wykresy i zamienić je w wykresy resztkowe, aby zilustrować problemy, których możesz szukać w resztkach po wykonaniu regresji.

Zestawy danych Anscombe

Charlie
źródło
Tak, znaliśmy te zbiory danych. To dobry punkt wyjścia.
robermorales
Głównym problemem jest to, że nie jest to zbiór danych w świecie rzeczywistym.
robermorales
3
@robermorales, Wystarczająco sprawiedliwe, ale myślę, że zobaczenie „czystej” wersji problemu ułatwia zrozumienie bałaganu w rzeczywistych wizualizacjach / problemach.
Charlie
4

William S. Cleveland ma dwie książki pełne świetnych zastosowań grafiki, a dane i kod do tworzenia wykresów w Visualizing Data znajdują się na jego stronie internetowej

Peter Flom
źródło
który ze zbiorów danych Cleveland bardziej Ci się podoba? dzięki
robermorales,
1
@robertomorales Myślę, że wszyscy są dobrze dobrani do swoich celów. Każdy zainteresowany grafiką statystyczną powinien dokładnie przestudiować Cleveland.
Peter Flom
1
Dane do wizualizacji danych można znaleźć na stronie lib.stat.cmu.edu/datasets/visualizing.data.zip Nie mogę ich już znaleźć na własnej stronie internetowej Cleveland.
Nick Cox
4

Być może już o nich wiesz, ale i tak są:

UCI Machine Learning Repositor y ma wiele publicznie dostępne zbiory danych rzeczywistych.

Rząd USA podaje do publicznej wiadomości wiele swoich zbiorów danych na data.gov .

Jeśli potrzebujesz skomplikowanych danych wizualizacyjnych, sugeruję przyjrzenie się zadaniu klasyfikacji. Wydaje mi się, że Bag of Words ustawiony na UCI MLR ma pewne fajne właściwości, ale mogę się mylić (minęło trochę czasu, odkąd go użyłem).

John Doucette
źródło
Dzięki! Jest dużo !
robermorales,
3

Tu jest kilka.

Przykładowe zestawy danych narzędzia Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Przykładowe zestawy danych dostarczane w pakiecie z narzędziem Sci2 Tool.

Przykładowe zestawy danych Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Przykładowe zestawy danych na rozpoczęcie korzystania z Tableau.

Niesamowite publiczne zbiory danych
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Ta lista publicznych źródeł danych jest gromadzona i porządkowana na blogach, odpowiedziach i odpowiedziach użytkowników. Większość zestawów danych jest darmowa, niektóre nie.

Ten wątek jest dość stary, mam nadzieję, że ten guz dostanie nowy wkład!

Mike Nutt
źródło