Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)?
Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych
Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady:
- Jeden post na zestaw danych
- Brak linku do zestawu danych
każdy zestaw danych musi być powiązany
nazwisko (aby dowiedzieć się, o co chodzi) i link do zbioru danych (zbiory danych R można nazwać z nazwą pakietu)
liczba funkcji (powiedzmy, że to p ) rozmiar zbioru danych (powiedzmy, że to n ) i liczba etykiet / klasy (powiedzmy, że to k )
typowy poziom błędu z twojego doświadczenia (podaj użyty algorytm w słowach) lub z literatury (w tym ostatnim przypadku połącz papier)
źródło
Odpowiedzi:
Dorothea
n = 1950
p = 100000 (0,1 M, połowa to sztucznie dodany szum)
k = 2 (~ 10x niezrównoważony)
Z NIPS2003 .
źródło
Gisette
n = 13500
p = 5000 (połowa to sztucznie dodany hałas)
k = 2 (zrównoważony)
Z NIPS2003 .
źródło
Dexter
n = 2600
p = 20000 (10k + 53 to sztuczny hałas)
k = 2 (zrównoważony)
Z NIPS2003 .
źródło
Arcene
n = 900
p = 10000 (3k to sztucznie dodany szum)
k = 2 (~ zrównoważony)
Z NIPS2003 .
źródło
Prostata (tablica ekspresji genów)
Dostępne poprzez (między innymi) pakietu R SPL nazwę zestawu danych: prostatę
współczynnik błędu = 3/102 (patrz tutaj ) również myślę, że są papiery, które wykazują współczynnik błędu 1/102. Powiedziałbym, że to łatwy przypadek testowy.
źródło