Jestem nowy w uczeniu maszynowym i szukam niektórych zestawów danych, za pomocą których mogę porównywać i kontrastować różnice między różnymi algorytmami uczenia maszynowego (drzewa decyzyjne, przyspieszenie, SVM i sieci neuronowe)
Gdzie mogę znaleźć takie zbiory danych? Czego powinienem szukać podczas rozważania zestawu danych?
Byłoby wspaniale, gdybyś mógł wskazać kilka dobrych zestawów danych, a także powiedzieć mi, co czyni je dobrym zestawem danych?
machine-learning
dataset
Królik
źródło
źródło
Odpowiedzi:
Zestawy danych w poniższych witrynach są dostępne za darmo. Te zestawy danych zostały wykorzystane do nauczania algorytmów ML dla studentów, ponieważ dla większości istnieją opisy z zestawami danych. Wspomniano również, jakie algorytmy mają zastosowanie.
źródło
Kaggle ma cały zestaw danych, z których można ćwiczyć.
(Dziwię się, że do tej pory o tym nie wspomniano!)
Ma dwie rzeczy (między innymi), które sprawiają, że jest to bardzo nieoceniony zasób:
źródło
Po pierwsze, polecam zacząć od przykładowych danych dostarczonych z oprogramowaniem. Większość dystrybucji oprogramowania zawiera przykładowe dane, których można użyć do zapoznania się z algorytmem bez zajmowania się typami danych i zapasem danych w odpowiednim formacie dla algorytmu. Nawet jeśli budujesz algorytm od zera, możesz zacząć od próbki z podobnej implementacji i porównać wydajność.
Po drugie, zaleciłbym eksperymentowanie z syntetycznymi zestawami danych, aby dowiedzieć się, jak działa algorytm, gdy wiesz, jak dane zostały wygenerowane i stosunek sygnału do szumu.
W R możesz wyświetlić listę wszystkich zestawów danych w aktualnie zainstalowanych pakietach za pomocą tego polecenia:
Pakiet R mlbench zawiera prawdziwe zestawy danych i może generować syntetyczne zestawy danych, które są przydatne do badania wydajności algorytmu.
Scikit-learn Pythona ma przykładowe dane i generuje również zestaw danych syntetycznych / zabawkowych.
SAS ma dostępny zestaw danych szkoleniowych do pobrania, a przykładowe dane SPSS są instalowane wraz z oprogramowaniem pod adresem C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Na koniec popatrzę na dane na wolności. Porównałbym wydajność różnych algorytmów i parametrów dostrajania w rzeczywistych zestawach danych. Zazwyczaj wymaga to dużo więcej pracy, ponieważ rzadko można znaleźć zestaw danych z typami danych i strukturami, które można upuścić bezpośrednio w swoich algorytmach.
W przypadku danych w środowisku naturalnym polecam:
Archiwum zestawu danych reddit
Lista KDnugget
źródło
Zestaw danych Iris nie ma sobie równych. Jest również w bazie R.
źródło
Moim zdaniem możesz zacząć od małych zestawów danych, które nie mają zbyt wielu funkcji.
Jednym z przykładów może być zestaw danych Iris (do klasyfikacji). Ma 3 klasy, 50 próbek dla każdej klasy, w sumie 150 punktów danych. Jednym z doskonałych zasobów, które mogą pomóc w eksploracji tego zestawu danych, jest ta seria wideo autorstwa Data School.
Kolejnym zestawem danych do kasy jest zestaw danych jakości wina z repozytorium UCI -ML. Ma 4898 punktów danych z 12 atrybutami.
źródło