Lokalizowanie swobodnie dostępnych próbek danych

98

Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na żywo.

To, czego szukam, to swobodnie dostępne (tj. Niepoufne, niezastrzeżone) źródło danych. Korzystnie taki, który zawiera rozkłady bimodalne lub multimodalne lub oczywiście składa się z wielu podzbiorów, których nie można łatwo rozdzielić za pomocą tradycyjnych środków. Gdzie znajdę takie informacje?

EAMann
źródło
4
Może ci się spodobać getthedata.org strona z pytaniami i odpowiedziami poświęcona znajdowaniu zestawów danych
Jeromy Anglim

Odpowiedzi:

46

Poniższa lista zawiera wiele zestawów danych, które mogą Cię zainteresować:

Mehper C. Palavuzlar
źródło
17

Bank Światowy oferuje całkiem sporo interesujących danych, a ostatnio bardzo aktywnie opracowujedla niegoładne API .

Również projekt commugrate ma dostępną ciekawą listę.

W przypadku danych związanych ze zdrowiem w USA kieruj do hurtowni wskaźników zdrowotnych .

Blog Daniela Lemire'a wskazuje na kilka interesujących przykładów (głównie dostosowanych do badań DB), w tym kanadyjski spis powszechny 1880 i raporty chmur synoptycznych .

A na dzień dzisiejszy (03.04.2012) zapisy ze spisu powszechnego z 1940 r. Są również dostępne do pobrania.

radek
źródło
2
Bank Światowy idzie o krok dalej z otwartymi danymi i mapami dla Staty i R.
ks.
13

Gapminder ma liczbę (430 na ostatni rzut oka) zestawów danych, które mogą, ale nie muszą być przydatne.

Amos
źródło
11

MLComp ma całkiem sporo interesujących zestawów danych, a jako bonus twój algorytm uzyska ranking, jeśli go załadujesz .

Jilles de wit
źródło
10

Dobrym miejscem do obejrzenia jest biblioteka danych i historii Carnegie Mellon University lub DASL , która zawiera pliki danych, które „ilustrują użycie podstawowych metod statystycznych ... Dobry przykład może uczynić lekcję na temat konkretnej metody statystycznej żywą i odpowiednią. DASL jest zaprojektowany, aby pomóc nauczycielom w zlokalizowaniu i identyfikacji plików danych do nauczania. Mamy nadzieję, że DASL będzie również służyć jako archiwum dla zbiorów danych z literatury statystycznej. ”

211
źródło
9

Uruchom R i wpisz data(). Spowoduje to wyświetlenie wszystkich zestawów danych na ścieżce wyszukiwania. Wiele dodatkowych zestawów danych jest dostępnych w pakietach dodatkowych. Na przykład w AERpakiecie znajduje się kilka interesujących zestawów danych z nauk społecznych .

Jeromy Anglim
źródło
5

Sieć Stack Exchange ma teraz nową witrynę, Open Data (w wersji beta od 5 marca 2015 r.), Poświęconą danych. Opisuje się jako:

Open Data Stack Exchange to witryna z pytaniami i odpowiedziami dla programistów i badaczy zainteresowanych otwartymi danymi. Jest zbudowany i obsługiwany przez Ciebie jako część sieci Stack Exchange stron z pytaniami i odpowiedziami. Z Twoją pomocą współpracujemy nad stworzeniem biblioteki szczegółowych odpowiedzi na każde pytanie dotyczące otwartych danych.

„Otwarte dane” odnoszą się do zbiorów danych, które są „swobodnie dostępne dla każdego do używania i ponownego publikowania według własnego uznania, bez ograniczeń praw autorskich, patentów lub innych mechanizmów kontroli” ( Wikipedia ). Jednak witryna wydaje się być podatna na żądania zamkniętych zestawów danych .

Gung
źródło
3

Dodanie pary do listy:

Oba są dostępne za pośrednictwem interfejsu API REST i mają bezpłatne plany próbne.

Eugene Osovetsky
źródło
2

Zestawy danych z przełomowej książki A handbook of small data setssą dostępne tutaj .

MYaseen208
źródło
2

Szukając odpowiedniego zestawu danych do moich potrzeb, natknąłem się na dwie witryny związane z tą dyskusją.

Datacite.org, który określa się jako ...

Jesteśmy organizacją międzynarodową, której celem jest:

  • zapewnić łatwiejszy dostęp do danych badawczych
  • zwiększenie akceptacji danych badawczych jako uzasadnionego wkładu w wyniki badań naukowych oraz
  • wspierać archiwizację danych, aby umożliwić weryfikację wyników i ponowne przeznaczenie ich do przyszłych badań.

DataBib.org, który określa się jako ...

Databib to narzędzie pomagające w identyfikowaniu i lokalizowaniu internetowych repozytoriów danych badawczych. Użytkownicy i bibliografowie tworzą i wyszukują rekordy opisujące repozytoria danych, które użytkownicy mogą przeszukiwać.

Pomyślałem, że warto dodać go do listy tutaj dla innych.

Teraz znajdź w linkach coś, co odpowiada moim potrzebom!

2 obrotami
źródło
2

Bardzo polecam sprawdzenie quandl.com . To marzenie programistów danych. Zapewnia jeden bardzo łatwy interfejs API umożliwiający dostęp do ponad 10 milionów różnych danych. Poszukujesz danych bimodalnych lub wielowymiarowych, więc sugerowałbym sprawdzenie różnych zestawów danych dotyczących populacji, np. Ten światowy wykres populacji zawiera podskładnikowe kraje i terytoria wchodzące w skład całości.

Ryzyko Briana
źródło
1
Niektóre dane quandl są bezpłatne, inne „Premium”, tj. Kosztuje $$. Również moje marzenie dotyczące API obejmuje nrows szereg czasowy, ncols i fabuły online (chcę kucyka).
denis
1

Wykorzystanie w czasie

Bardzo duży arkusz kalkulacyjny Excel dostępny do pobrania, zawierający punkty danych dla wszystkich działań online, z danymi demograficznymi użytkowników, w miarę upływu czasu. Przed pobraniem lub użyciem tego arkusza kalkulacyjnego przeczytaj Arkusz wskazówek (poniżej).

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Tal Galili
źródło