Publicznie dostępne zestawy danych

167

Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w tej dziedzinie wykonuje nieco powtarzalną pracę. Na przykład analiza tweetów, postów na Facebooku, artykułów w Wikipedii itp. Jest częścią wielu problemów z dużymi danymi.

Niektóre z tych zestawów danych są dostępne przy użyciu publicznych interfejsów API udostępnianych przez witrynę dostawcy, ale zwykle brakuje niektórych cennych informacji lub wskaźników w tych interfejsach API i każdy musi ponownie wykonywać te same analizy. Na przykład, chociaż użytkownicy korzystający z klastrów mogą zależeć od różnych przypadków użycia i wybranych funkcji, to jednak bazowe grupowanie użytkowników z Twittera / Facebooka może być przydatne w wielu aplikacjach Big Data, których interfejs API nie udostępnia ani nie udostępnia publicznie w niezależnych zestawach danych .

Czy istnieje jakaś strona z indeksem lub publicznie dostępnym zestawem danych zawierającym cenne zestawy danych, które można ponownie wykorzystać w rozwiązywaniu innych problemów z dużymi danymi? Mam na myśli coś takiego jak GitHub (lub grupa witryn / publicznych zestawów danych lub przynajmniej obszerna lista) dla nauki danych. Jeśli nie, jakie są powody braku takiej platformy dla nauki danych? Wartość handlowa danych, musisz często aktualizować zestawy danych ...? Czy nie możemy opracować modelu open source do udostępniania zbiorów danych dla naukowców zajmujących się danymi?

Amir Ali Akbari
źródło
18
To pytanie może być bardziej odpowiednie w dedykowanym opendata.SE . Powiedział, że Trzymam kciuki za DAT , który aspiruje do roli „Git danych”.
ojdo
2
@ojdo Dzięki, nigdy wcześniej nie słyszałem o opendata.SE, znalazłem tam również to interesujące (i bardzo podobne) pytanie.
Amir Ali Akbari
Nie znalazłem żadnych dobrych, bezpłatnych kompleksowych zestawów danych dla typowych aplikacji Business Intelligence. Zestaw danych demonstracyjnych Microsoft Contoso BI dla branży detalicznej z oficjalnego pobierania Centrum pobierania Microsoft współpracuje z niektórymi produktami Microsoft (patrz AndyGett w SharePoint i innym oprogramowaniu biznesowym ), ale nie widzę żadnych zwykłych zrzutów SQL ani CSV ani żadnych informacji o licencji .
nealmcb
1
Czy dołączyłeś do Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Odpowiedzi:

87

W rzeczywistości istnieje bardzo rozsądna lista publicznie dostępnych zestawów danych, obsługiwanych przez różne przedsiębiorstwa / źródła.

Niektóre z nich są poniżej:

Teraz dwie kwestie dotyczące twojego pytania. Pierwszy dotyczy zasad udostępniania baz danych. Z własnego doświadczenia wynika, że ​​istnieją pewne bazy danych, których nie można udostępnić publicznie, zarówno w celu ograniczenia prywatności (jak w przypadku niektórych informacji z sieci społecznościowych), jak i dotyczących informacji rządowych (takich jak bazy danych systemów opieki zdrowotnej).

Kolejna kwestia dotyczy użycia / zastosowania zestawu danych. Chociaż niektóre bazy danych mogą być przetwarzane ponownie w celu dopasowania do potrzeb aplikacji, byłoby dobrze, gdybyś miał jakąś fajną organizację zbiorów danych według celu. Taksonomia powinna obejmować analizę społeczną wykres, Zbiór, górnictwo, klasyfikację, oraz wiele innych obszarów badawczych nie mogą być.

Rubens
źródło
64

Aktualizacja:

Kaggle.com , dom miłośników nowoczesnej nauki i uczenia maszynowego :), otworzył własne repozytorium zestawów danych .


Oprócz wymienionych źródeł.

Niektóre zestawy danych sieci społecznościowych:

Istnieje wiele źródeł wymienionych w Stats SE:

IharS
źródło
37

Istnieje wiele otwartych zestawów danych, jednym z nich często jest przeoczony data.gov . Jak wspomniano wcześniej, Freebase jest świetny, podobnie jak wszystkie przykłady opublikowane przez @Rubens

MCP_infiltrator
źródło
35

Freebase to darmowa baza danych oparta na społeczności, która obejmuje wiele interesujących tematów i zawiera około 2,5 miliarda faktów w formacie do odczytu maszynowego. Ma również dobry interfejs API do wykonywania zapytań o dane.

Oto kolejna skompilowana lista otwartych zestawów danych: http://www.datapure.co/open-data-sets

rev Konstantin V. Salikhov
źródło
Freebase zamyka się, a jego baza danych wkrótce zostanie przeniesiona do Wikidata .
cynddl
25

W szczególności dla danych szeregów czasowych Quandl jest doskonałym zasobem - łatwo przeglądalnym katalogiem (głównie) czystych szeregów czasowych.

Jedną z ich najfajniejszych funkcji są ceny akcji z otwartymi danymi - tj. Dane finansowe, które można edytować w stylu wiki i nie są obciążone licencją.

azza-bazoo
źródło
20

Enigma to repozytorium dostępnych publicznie zestawów danych. Bezpłatny plan oferuje publiczne wyszukiwanie danych, z 10 000 wywołań API miesięcznie. Nie wszystkie publiczne bazy danych są wymienione, ale lista ta wystarcza na typowe przypadki.

Użyłem go do badań akademickich i zaoszczędziłem dużo czasu.


Innym interesującym źródłem danych jest projekt @unitedstates , zawierający dane i narzędzia do ich gromadzenia, dotyczące Stanów Zjednoczonych (członkowie Kongresu, kształty geograficzne…).

cynddl
źródło
18

Chciałbym wskazać na spis powszechny danych . Jest to inicjatywa Open Knowledge Foundation oparta na opiniach zwolenników otwartych danych i ekspertów z całego świata.

Wartość spisu otwartych danych jest otwarta, kierowana przez społeczność i systematyczna w gromadzeniu i aktualizacji bazy danych otwartych zbiorów danych na całym świecie w poszczególnych krajach, aw niektórych przypadkach, np. W Stanach Zjednoczonych, na poziomie miast .

Ponadto stanowi okazję do porównania różnych krajów i miast w wybranych obszarach zainteresowania.

tomaskazemekas
źródło
18

Istnieje również inny zasób udostępniony przez The Guardian, British Daily na ich stronie internetowej. Wszystkie zestawy danych opublikowane przez Guardian Datablog są hostowane. Zestawy danych dotyczące kont Football Premier League Clubs, dane dotyczące inflacji i PKB w Wielkiej Brytanii, dane dotyczące nagród Grammy itp. Zestawy danych są dostępne na stronie

Więcej zasobów. Niektóre zestawy danych są w formacie R lub istnieją komendy R do bezpośredniego importowania danych do R.

binga
źródło
17

Niestandardowa wyszukiwarka Google

Możesz użyć niestandardowej wyszukiwarki Google dla zestawów danych:

Wyszukiwarka niestandardowa Google: zestawy danych

Zawiera 230 źródeł i meta-źródeł zestawów danych, w tym wszystkie wymienione w tym pytaniu. Prosimy o wykluczenie .gov i innych stron z wyników wyszukiwania poprzez dodanie „-.gov” lub „-site.com” do linii wyszukiwania. Działają inni operatorzy wyszukiwania Google.

Nie wahaj się ze mną skontaktować, jeśli masz pomysły, które witryny dodać.

IOGDS

Następująca usługa kategoryzuje ponad 1 000 000 publicznych zbiorów danych:

IOGDS: międzynarodowy otwarty zbiór danych rządowych

Anton Tarasenko
źródło
Jakie są parametry podanego niestandardowego linku wyszukiwania? Czy wyszukuje na liście stron internetowych, słów kluczowych itp.?
Amir Ali Akbari,
@AmirAliAkbari Przeszukuje źródła takie jak Data.gov, Quandl i inne duże hurtownie danych.
Anton Tarasenko,
16

Późna odpowiedź, ale tutaj jest eklektyczna lista ponad 100 interesujących zbiorów danych

Wpis na blogu jest przyjemny i łatwy do przeczytania (nie mam powiązania). Warto zeskanować i zeskrobać kilka z góry:

  • Ostatnie słowa każdego więźnia z Teksasu straconego od 1984 r

  • 10 000 zdjęć kotów z adnotacjami

  • 2,2 miliona meczów szachowych

philshem
źródło
15

Rząd Wielkiej Brytanii stanowi doskonałe źródło danych nieosobowych gromadzonych we wszystkich departamentach rządowych: http://data.gov.uk

Federer
źródło
14

Jestem nowy na tym forum. Późno dzwonię w tej sprawie. Prowadzę (jestem współzałożycielem) katalog publicznie dostępnych portali danych. Istnieje ponad 1000 obecnie wymienionych i obejmujących portale na poziomie międzynarodowym, federalnym, stanowym, miejskim i akademickim na całym świecie.

http://www.opengeocode.org/opendata/

Andrew - OpenGeoCode
źródło
14

Dziwię się, że o tym nie wspomniałem, ponieważ wydaje się to dość oczywiste: http://www.kaggle.com konsekwentnie ma nowe i bardzo interesujące zbiory danych. Informacje są uważane za zasób, więc często firmy nie chcą ujawniać tych danych (plus obawy dotyczące prywatności). Kaggle udostępnia dane i ma nadzieję, że w zamian rozwiążesz z nimi problemy biznesowe.

Baran
źródło
14

Zestawy danych

Zestawy danych od awesome-datascience

chenrui333
źródło
1
Czy możesz podać nam informacje o obu zestawach danych / linkach? To rzeczywiście zmniejszy ciężar osób poszukujących określonych typów zbiorów danych. Przejrzyj inne posty, aby zobaczyć, jakiego rodzaju informacji brakuje w twoich referencjach.
Rubens
11

Jak wspomniałeś, interfejs API jest trudny, a nie dane. Wydaje się, że Quandl rozwiązuje ten problem, udostępniając ponad 10 milionów publicznie dostępnych zestawów danych w ramach jednego łatwego interfejsu API RESTful. Jeśli programowanie nie jest Twoją mocną stroną, istnieje bezpłatne narzędzie, które bardzo ułatwia ładowanie danych do Excela. Dodatkowo, jeśli zrobić cieszyć programowania, istnieje kilka natywne biblioteki w R, Python, Java i więcej .

Ryzyko Briana
źródło
11

Aby dodać do możliwie nigdy nie kończącej się listy:

jak wspomniano przez cyndd istnieje wikidane ,

a dla uporządkowanej wiedzy strukturalnej Wolfram Alpha .

image_doctor
źródło
9

Innym źródłem danych, którego nie widziałem na liście, jest Projekt GDELT . Ze strony:

Projekt GDELT monitoruje światowe wiadomości telewizyjne, drukowane i internetowe z niemal każdego zakątka każdego kraju w ponad 100 językach i identyfikuje ludzi, lokalizacje, organizacje, liczby, tematy, źródła i wydarzenia napędzające nasze globalne społeczeństwo co sekundę każdego dnia, tworząc bezpłatną otwartą platformę obliczeniową na całym świecie.

dvdnglnd
źródło
8

Ten subreddit zawiera listę wielu znanych zestawów danych

Zestawy danych Reddit

Istnieje wiele żądań zestawów danych na tym subreddicie, na kilka z nich udzielono odpowiedzi.

Jakiś facet
źródło
6

Stworzyłem do tego repozytorium github. Zestawy danych nie są duże, ale są minimalnymi przykładami służącymi do ćwiczenia i eksploracji technik modelowania predykcyjnego, które można następnie rozszerzyć na duże zestawy danych.

Biblia dotycząca uczenia maszynowego (MLPB)

Fajną / unikalną cechą tego repozytorium jest to, że każdy problem jest oznaczony tagami takimi jak [multi-class], [niezrównoważone dane], [regresja] itp., Co ułatwia znajdowanie określonych typów problemów / zestawów danych.

Ben
źródło
6

Oprócz wszystkich tych zestawów danych, jeśli jesteś zainteresowany danymi związanymi z Indiami. Oficjalna strona rządu indyjskiego to

Zapewnia zestawy danych z różnych departamentów indyjskiego rządu, które mogą być dobrze wykorzystane do analizy dużych zbiorów danych i uczenia maszynowego.

Gauraw
źródło
4

Po prostu ładujemy pakiet MASS w R, uzyskujemy dostęp do wielu ramek danych lub zestawów danych.

pakiety install.packages („MASS”) wymagają („MASS”)

dileep balineni
źródło
3

3 zestawy danych z https://www.jc-bingo.com/about

  • visitor-interests.csv Zagregowane zainteresowania odwiedzających zestawione na podstawie 1-tygodniowych dzienników dostępu do sieci. Obejmuje adres IP użytkownika, ciąg znaków klienta użytkownika, kraj użytkownika, języki i tematy stron, do których uzyskano dostęp. 19 926 rekordów, 2,9 Mb.
  • user-agent.csv Agenty użytkownika rzeczywistego użytkownika uporządkowane według popularności. 4826 rekordów, 716 Kb.
  • bots.csv Adresy IP robotów i ciągi agenta użytkownika wyodrębnione z dzienników dostępu do sieci. 1293 zapisy, 122 Kb.
Jurij
źródło
3

Oczywiście istnieje duży zestaw publicznych baz danych.

Jeden jeszcze nie wymieniony, pochodzi z FAO (Organizacja Narodów Zjednoczonych ds. Wyżywienia i Rolnictwa), dostępnej pod adresem:

http://www.fao.org/faostat/

Zawiera dane dotyczące produkcji żywności dla krajów na całym świecie.

scenograf
źródło