Szukam istniejących zestawów danych, których możemy użyć do przetestowania kilku technik danych, które badamy.
Znam kilka zasobów, takich jak te zawarte w R (spróbuj plot(Orange)
lub zobacz tutaj ).
Ale chciałbym zrobić krok do przodu:
- Jakie są najlepsze zestawy danych w świecie rzeczywistym do testowania narzędzia do wizualizacji?
- Z jakich zestawów danych korzystałeś w pracach naukowych lub na slajdach o danych?
- Jaki jest najlepszy przykład z prawdziwego świata, który pokazuje zalety tworzenia wykresów?
data-visualization
dataset
teaching
robermorales
źródło
źródło
Odpowiedzi:
Istnieje duża liczba baz danych dostępnych w Internecie. W zależności od tematu możesz uzyskać różne źródła.
Na przykład w obszarze tematycznym Human Development możesz mieć źródła danych pod adresem (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Do obserwacji zmian klimatu dostępna jest strona internetowa z danymi klimatycznymi o wysokiej rozdzielczości (http://www.ipcc-data.org/), na przykład:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Oba przykłady zawierają prawdziwe dane, wykorzystane w opublikowanych pracach naukowych, z dużą ilością danych. Dane związane z czasem i / lub przestrzenią. Możliwości wizualizacji tych danych są nieograniczone.
źródło
Lubię używać zestawów danych Anscombe (dostępnych również w R), aby pokazać znaczenie kreślenia podczas regresji. Jeśli nie jesteś zaznajomiony, otrzymujesz tę samą linię regresji i diagnostykę ze wszystkich czterech zestawów danych, mimo że same zestawy wyglądają zupełnie inaczej. Możesz wziąć poniższe wykresy i zamienić je w wykresy resztkowe, aby zilustrować problemy, których możesz szukać w resztkach po wykonaniu regresji.
źródło
Każdy duży stół. Na przykład obrazy google z „oficjalnej tabeli spisu ludności”. Zobaczysz rzeczy takie jak poniżej .
Zobacz także Gelman i in. (2002) Przećwiczmy to, co głosimy: przekształcanie tabel w wykresy. American Statistician 56: 121-130
źródło
William S. Cleveland ma dwie książki pełne świetnych zastosowań grafiki, a dane i kod do tworzenia wykresów w Visualizing Data znajdują się na jego stronie internetowej
źródło
Być może już o nich wiesz, ale i tak są:
UCI Machine Learning Repositor y ma wiele publicznie dostępne zbiory danych rzeczywistych.
Rząd USA podaje do publicznej wiadomości wiele swoich zbiorów danych na data.gov .
Jeśli potrzebujesz skomplikowanych danych wizualizacyjnych, sugeruję przyjrzenie się zadaniu klasyfikacji. Wydaje mi się, że Bag of Words ustawiony na UCI MLR ma pewne fajne właściwości, ale mogę się mylić (minęło trochę czasu, odkąd go użyłem).
źródło
Tu jest kilka.
Przykładowe zestawy danych narzędzia Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Przykładowe zestawy danych dostarczane w pakiecie z narzędziem Sci2 Tool.
Przykładowe zestawy danych Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Przykładowe zestawy danych na rozpoczęcie korzystania z Tableau.
Niesamowite publiczne zbiory danych
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Ta lista publicznych źródeł danych jest gromadzona i porządkowana na blogach, odpowiedziach i odpowiedziach użytkowników. Większość zestawów danych jest darmowa, niektóre nie.
Ten wątek jest dość stary, mam nadzieję, że ten guz dostanie nowy wkład!
źródło
Właśnie zauważyłem tutaj mnóstwo zestawów danych:
http://www.inside-r.org/howto/finding-data-internet
Nie wiesz, czy to się przyda?
Obawiam się, że nie uczę wizualizacji, więc nie mogę komentować twoich konkretnych pytań.
źródło