Obecnie próbuję samodzielnie wdrożyć niektóre algorytmy uczenia maszynowego. Wiele z nich ma tę nieprzyjemną właściwość, że jest trudna do debugowania, niektóre błędy nie powodują awarii programu, ale raczej działają niezgodnie z przeznaczeniem i wydają się, że algorytmy po prostu dają słabsze wyniki.
Chciałbym mieć sposób na zwiększenie mojego zaufania do implementacji, na przykład gdybym miał kilka małych zestawów danych, z dodatkowymi informacjami „Algorytmy X działały dla iteracji Y i miały wyniki Z dla tego zestawu danych”, co byłoby bardzo pomocne. Czy ktoś słyszał o takich zestawach danych?
Odpowiedzi:
Z repozytorium uczenia maszynowego UC Irvine :
Ponadto powszechnie wykorzystywany i badany jest następujący zestaw danych MIAS :
źródło
Repozytorium UCI wspomniane przez Bashara jest prawdopodobnie największe, ale chciałem dodać kilka mniejszych kolekcji, z którymi się spotkałem:
źródło