Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na żywo.
To, czego szukam, to swobodnie dostępne (tj. Niepoufne, niezastrzeżone) źródło danych. Korzystnie taki, który zawiera rozkłady bimodalne lub multimodalne lub oczywiście składa się z wielu podzbiorów, których nie można łatwo rozdzielić za pomocą tradycyjnych środków. Gdzie znajdę takie informacje?
dataset
sample
population
teaching
EAMann
źródło
źródło
Odpowiedzi:
Zobacz także repozytorium danych uczenia maszynowego UCI.
http://archive.ics.uci.edu/ml/
źródło
Poniższa lista zawiera wiele zestawów danych, które mogą Cię zainteresować:
źródło
Zobacz moją odpowiedź na „Zestawy danych do uruchamiania analizy statystycznej na” w odniesieniu do zestawów danych w R.
źródło
Bank Światowy oferuje całkiem sporo interesujących danych, a ostatnio bardzo aktywnie opracowujedla niegoładne API .
Również projekt commugrate ma dostępną ciekawą listę.
W przypadku danych związanych ze zdrowiem w USA kieruj do hurtowni wskaźników zdrowotnych .
Blog Daniela Lemire'a wskazuje na kilka interesujących przykładów (głównie dostosowanych do badań DB), w tym kanadyjski spis powszechny 1880 i raporty chmur synoptycznych .
A na dzień dzisiejszy (03.04.2012) zapisy ze spisu powszechnego z 1940 r. Są również dostępne do pobrania.
źródło
Gapminder ma liczbę (430 na ostatni rzut oka) zestawów danych, które mogą, ale nie muszą być przydatne.
źródło
MLComp ma całkiem sporo interesujących zestawów danych, a jako bonus twój algorytm uzyska ranking, jeśli go załadujesz .
źródło
Dobrym miejscem do obejrzenia jest biblioteka danych i historii Carnegie Mellon University lub DASL , która zawiera pliki danych, które „ilustrują użycie podstawowych metod statystycznych ... Dobry przykład może uczynić lekcję na temat konkretnej metody statystycznej żywą i odpowiednią. DASL jest zaprojektowany, aby pomóc nauczycielom w zlokalizowaniu i identyfikacji plików danych do nauczania. Mamy nadzieję, że DASL będzie również służyć jako archiwum dla zbiorów danych z literatury statystycznej. ”
źródło
Uruchom R i wpisz
data()
. Spowoduje to wyświetlenie wszystkich zestawów danych na ścieżce wyszukiwania. Wiele dodatkowych zestawów danych jest dostępnych w pakietach dodatkowych. Na przykład wAER
pakiecie znajduje się kilka interesujących zestawów danych z nauk społecznych .źródło
NIST zapewnia archiwum referencyjnego zestawu danych .
źródło
http://www.reddit.com/r/datasets, a także http://www.reddit.com/r/opendata oba zawierają stale rosnącą listę wskaźników do różnych zestawów danych.
źródło
Sieć Stack Exchange ma teraz nową witrynę, Open Data (w wersji beta od 5 marca 2015 r.), Poświęconą danych. Opisuje się jako:
„Otwarte dane” odnoszą się do zbiorów danych, które są „swobodnie dostępne dla każdego do używania i ponownego publikowania według własnego uznania, bez ograniczeń praw autorskich, patentów lub innych mechanizmów kontroli” ( Wikipedia ). Jednak witryna wydaje się być podatna na żądania zamkniętych zestawów danych .
źródło
Timetric zapewnia interfejs sieciowy do danych i zapewnia listę publicznie dostępnych zestawów danych, z których korzystają
źródło
Dodanie pary do listy:
Wiele szczegółowych danych finansowych na temat spółek notowanych na giełdzie, pochodzących z wielu dekad: http://www.mergent.com/servius
Bogate informacje o ponad 16 milionach firm w USA: http://compass.webservius.com
Oba są dostępne za pośrednictwem interfejsu API REST i mają bezpłatne plany próbne.
źródło
Oto kolejna lista .
źródło
Jest to prawdopodobnie najbardziej kompletna lista, jaką znajdziesz: Niektóre zbiory danych dostępne w sieci
źródło
Peter Skomoroch prowadzi listę zbiorów danych na stronie http://www.datawrangling.com/some-datasets-available-on-the-web . Wiele z podanych linków do miejsc, które wymieniają zestawy danych.
źródło
Zestawy danych z przełomowej książki
A handbook of small data sets
są dostępne tutaj .źródło
Szukając odpowiedniego zestawu danych do moich potrzeb, natknąłem się na dwie witryny związane z tą dyskusją.
Datacite.org, który określa się jako ...
DataBib.org, który określa się jako ...
Pomyślałem, że warto dodać go do listy tutaj dla innych.
Teraz znajdź w linkach coś, co odpowiada moim potrzebom!
źródło
Bardzo polecam sprawdzenie quandl.com . To marzenie programistów danych. Zapewnia jeden bardzo łatwy interfejs API umożliwiający dostęp do ponad 10 milionów różnych danych. Poszukujesz danych bimodalnych lub wielowymiarowych, więc sugerowałbym sprawdzenie różnych zestawów danych dotyczących populacji, np. Ten światowy wykres populacji zawiera podskładnikowe kraje i terytoria wchodzące w skład całości.
źródło
źródło
Wykorzystanie w czasie
Bardzo duży arkusz kalkulacyjny Excel dostępny do pobrania, zawierający punkty danych dla wszystkich działań online, z danymi demograficznymi użytkowników, w miarę upływu czasu. Przed pobraniem lub użyciem tego arkusza kalkulacyjnego przeczytaj Arkusz wskazówek (poniżej).
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
źródło
http://www.ckan.net ma również wiele zbiorów danych.
http://www.biotorrents.net/browse.php również zaczyna mieć dość dużą liczbę dużych zbiorów danych.
źródło
SODA POP w Penn State;
http://sodapop.pop.psu.edu/
Proste archiwum danych online do badań populacji.
źródło
Idę naprzód i podszeptuję stary temat, bo właśnie znalazłem ten matczyny lode:
http://vincentarelbundock.github.io/Rdatasets/
źródło
Singapur ogłasza inicjatywę Open Data . Sprawdź data.gov.sg podobny do data.gov w USA.
źródło