Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w tej dziedzinie wykonuje nieco powtarzalną pracę. Na przykład analiza tweetów, postów na Facebooku, artykułów w Wikipedii itp. Jest częścią wielu problemów z dużymi danymi.
Niektóre z tych zestawów danych są dostępne przy użyciu publicznych interfejsów API udostępnianych przez witrynę dostawcy, ale zwykle brakuje niektórych cennych informacji lub wskaźników w tych interfejsach API i każdy musi ponownie wykonywać te same analizy. Na przykład, chociaż użytkownicy korzystający z klastrów mogą zależeć od różnych przypadków użycia i wybranych funkcji, to jednak bazowe grupowanie użytkowników z Twittera / Facebooka może być przydatne w wielu aplikacjach Big Data, których interfejs API nie udostępnia ani nie udostępnia publicznie w niezależnych zestawach danych .
Czy istnieje jakaś strona z indeksem lub publicznie dostępnym zestawem danych zawierającym cenne zestawy danych, które można ponownie wykorzystać w rozwiązywaniu innych problemów z dużymi danymi? Mam na myśli coś takiego jak GitHub (lub grupa witryn / publicznych zestawów danych lub przynajmniej obszerna lista) dla nauki danych. Jeśli nie, jakie są powody braku takiej platformy dla nauki danych? Wartość handlowa danych, musisz często aktualizować zestawy danych ...? Czy nie możemy opracować modelu open source do udostępniania zbiorów danych dla naukowców zajmujących się danymi?
źródło
Odpowiedzi:
W rzeczywistości istnieje bardzo rozsądna lista publicznie dostępnych zestawów danych, obsługiwanych przez różne przedsiębiorstwa / źródła.
Niektóre z nich są poniżej:
Teraz dwie kwestie dotyczące twojego pytania. Pierwszy dotyczy zasad udostępniania baz danych. Z własnego doświadczenia wynika, że istnieją pewne bazy danych, których nie można udostępnić publicznie, zarówno w celu ograniczenia prywatności (jak w przypadku niektórych informacji z sieci społecznościowych), jak i dotyczących informacji rządowych (takich jak bazy danych systemów opieki zdrowotnej).
Kolejna kwestia dotyczy użycia / zastosowania zestawu danych. Chociaż niektóre bazy danych mogą być przetwarzane ponownie w celu dopasowania do potrzeb aplikacji, byłoby dobrze, gdybyś miał jakąś fajną organizację zbiorów danych według celu. Taksonomia powinna obejmować analizę społeczną wykres, Zbiór, górnictwo, klasyfikację, oraz wiele innych obszarów badawczych nie mogą być.
źródło
Aktualizacja:
Kaggle.com , dom miłośników nowoczesnej nauki i uczenia maszynowego :), otworzył własne repozytorium zestawów danych .
Oprócz wymienionych źródeł.
Niektóre zestawy danych sieci społecznościowych:
Istnieje wiele źródeł wymienionych w Stats SE:
źródło
Istnieje wiele otwartych zestawów danych, jednym z nich często jest przeoczony data.gov . Jak wspomniano wcześniej, Freebase jest świetny, podobnie jak wszystkie przykłady opublikowane przez @Rubens
źródło
Freebase to darmowa baza danych oparta na społeczności, która obejmuje wiele interesujących tematów i zawiera około 2,5 miliarda faktów w formacie do odczytu maszynowego. Ma również dobry interfejs API do wykonywania zapytań o dane.
Oto kolejna skompilowana lista otwartych zestawów danych: http://www.datapure.co/open-data-sets
źródło
Dostępne są następujące linki
Zestawy danych publicznych
Publiczne zestawy danych Google
Amazon Web Services
Znajdowanie danych w Internecie
źródło
W szczególności dla danych szeregów czasowych Quandl jest doskonałym zasobem - łatwo przeglądalnym katalogiem (głównie) czystych szeregów czasowych.
Jedną z ich najfajniejszych funkcji są ceny akcji z otwartymi danymi - tj. Dane finansowe, które można edytować w stylu wiki i nie są obciążone licencją.
źródło
Enigma to repozytorium dostępnych publicznie zestawów danych. Bezpłatny plan oferuje publiczne wyszukiwanie danych, z 10 000 wywołań API miesięcznie. Nie wszystkie publiczne bazy danych są wymienione, ale lista ta wystarcza na typowe przypadki.
Użyłem go do badań akademickich i zaoszczędziłem dużo czasu.
Innym interesującym źródłem danych jest projekt @unitedstates , zawierający dane i narzędzia do ich gromadzenia, dotyczące Stanów Zjednoczonych (członkowie Kongresu, kształty geograficzne…).
źródło
Chciałbym wskazać na spis powszechny danych . Jest to inicjatywa Open Knowledge Foundation oparta na opiniach zwolenników otwartych danych i ekspertów z całego świata.
Wartość spisu otwartych danych jest otwarta, kierowana przez społeczność i systematyczna w gromadzeniu i aktualizacji bazy danych otwartych zbiorów danych na całym świecie w poszczególnych krajach, aw niektórych przypadkach, np. W Stanach Zjednoczonych, na poziomie miast .
Ponadto stanowi okazję do porównania różnych krajów i miast w wybranych obszarach zainteresowania.
źródło
Istnieje również inny zasób udostępniony przez The Guardian, British Daily na ich stronie internetowej. Wszystkie zestawy danych opublikowane przez Guardian Datablog są hostowane. Zestawy danych dotyczące kont Football Premier League Clubs, dane dotyczące inflacji i PKB w Wielkiej Brytanii, dane dotyczące nagród Grammy itp. Zestawy danych są dostępne na stronie
Więcej zasobów. Niektóre zestawy danych są w formacie R lub istnieją komendy R do bezpośredniego importowania danych do R.
źródło
Niestandardowa wyszukiwarka Google
Możesz użyć niestandardowej wyszukiwarki Google dla zestawów danych:
Wyszukiwarka niestandardowa Google: zestawy danych
Zawiera 230 źródeł i meta-źródeł zestawów danych, w tym wszystkie wymienione w tym pytaniu. Prosimy o wykluczenie .gov i innych stron z wyników wyszukiwania poprzez dodanie „-.gov” lub „-site.com” do linii wyszukiwania. Działają inni operatorzy wyszukiwania Google.
Nie wahaj się ze mną skontaktować, jeśli masz pomysły, które witryny dodać.
IOGDS
Następująca usługa kategoryzuje ponad 1 000 000 publicznych zbiorów danych:
IOGDS: międzynarodowy otwarty zbiór danych rządowych
źródło
Późna odpowiedź, ale tutaj jest eklektyczna lista ponad 100 interesujących zbiorów danych
Wpis na blogu jest przyjemny i łatwy do przeczytania (nie mam powiązania). Warto zeskanować i zeskrobać kilka z góry:
Ostatnie słowa każdego więźnia z Teksasu straconego od 1984 r
10 000 zdjęć kotów z adnotacjami
2,2 miliona meczów szachowych
źródło
Znalazłem ten link w Data Science Central z listą bezpłatnych zestawów danych: Duże zbiory danych dostępne za darmo
źródło
Czy wiesz o testach PUMA i pobieranych zestawach danych? https://sites.google.com/site/farazahmad/pumadatasets
Obejmuje to:
źródło
Rząd Wielkiej Brytanii stanowi doskonałe źródło danych nieosobowych gromadzonych we wszystkich departamentach rządowych: http://data.gov.uk
źródło
Jestem nowy na tym forum. Późno dzwonię w tej sprawie. Prowadzę (jestem współzałożycielem) katalog publicznie dostępnych portali danych. Istnieje ponad 1000 obecnie wymienionych i obejmujących portale na poziomie międzynarodowym, federalnym, stanowym, miejskim i akademickim na całym świecie.
http://www.opengeocode.org/opendata/
źródło
Dziwię się, że o tym nie wspomniałem, ponieważ wydaje się to dość oczywiste: http://www.kaggle.com konsekwentnie ma nowe i bardzo interesujące zbiory danych. Informacje są uważane za zasób, więc często firmy nie chcą ujawniać tych danych (plus obawy dotyczące prywatności). Kaggle udostępnia dane i ma nadzieję, że w zamian rozwiążesz z nimi problemy biznesowe.
źródło
Zestawy danych
Zestawy danych od awesome-datascience
źródło
Jak wspomniałeś, interfejs API jest trudny, a nie dane. Wydaje się, że Quandl rozwiązuje ten problem, udostępniając ponad 10 milionów publicznie dostępnych zestawów danych w ramach jednego łatwego interfejsu API RESTful. Jeśli programowanie nie jest Twoją mocną stroną, istnieje bezpłatne narzędzie, które bardzo ułatwia ładowanie danych do Excela. Dodatkowo, jeśli zrobić cieszyć programowania, istnieje kilka natywne biblioteki w R, Python, Java i więcej .
źródło
Aby dodać do możliwie nigdy nie kończącej się listy:
jak wspomniano przez cyndd istnieje wikidane ,
a dla uporządkowanej wiedzy strukturalnej Wolfram Alpha .
źródło
Tę kolekcję natknąłem się na Github. Kolekcja jest również podzielona na kategorie.
https://github.com/caesar0301/awesome-public-datasets
I dla części dotyczącej
możesz odnieść się do Przewodnika grupowego Leek na temat udostępniania danych
źródło
Nie wszystkie dane rządowe są wymienione na data.gov - Sunlight Foundation przygotowała w lutym zestaw arkuszy kalkulacyjnych opisujących zestawy dostępnych danych.
źródło
Innym źródłem danych, którego nie widziałem na liście, jest Projekt GDELT . Ze strony:
źródło
Ten subreddit zawiera listę wielu znanych zestawów danych
Zestawy danych Reddit
Istnieje wiele żądań zestawów danych na tym subreddicie, na kilka z nich udzielono odpowiedzi.
źródło
Stworzyłem do tego repozytorium github. Zestawy danych nie są duże, ale są minimalnymi przykładami służącymi do ćwiczenia i eksploracji technik modelowania predykcyjnego, które można następnie rozszerzyć na duże zestawy danych.
Biblia dotycząca uczenia maszynowego (MLPB)
Fajną / unikalną cechą tego repozytorium jest to, że każdy problem jest oznaczony tagami takimi jak [multi-class], [niezrównoważone dane], [regresja] itp., Co ułatwia znajdowanie określonych typów problemów / zestawów danych.
źródło
Eurostats http://ec.europa.eu/eurostat i Europejski Bank Centralny https://www.ecb.europa.eu/stats/html/index.en.html zapewniają ogromną różnorodność zbiorów danych, z których często korzystam projekty pracy.
źródło
Oprócz wszystkich tych zestawów danych, jeśli jesteś zainteresowany danymi związanymi z Indiami. Oficjalna strona rządu indyjskiego to
Zapewnia zestawy danych z różnych departamentów indyjskiego rządu, które mogą być dobrze wykorzystane do analizy dużych zbiorów danych i uczenia maszynowego.
źródło
Yahoo właśnie wydało ogromny zestaw danych dla społeczności badawczej. Ciesz się
źródło
Po prostu ładujemy pakiet MASS w R, uzyskujemy dostęp do wielu ramek danych lub zestawów danych.
pakiety install.packages („MASS”) wymagają („MASS”)
źródło
3 zestawy danych z https://www.jc-bingo.com/about
źródło
Oczywiście istnieje duży zestaw publicznych baz danych.
Jeden jeszcze nie wymieniony, pochodzi z FAO (Organizacja Narodów Zjednoczonych ds. Wyżywienia i Rolnictwa), dostępnej pod adresem:
http://www.fao.org/faostat/
Zawiera dane dotyczące produkcji żywności dla krajów na całym świecie.
źródło