Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]

35

Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)?

Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych

Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady:

  1. Jeden post na zestaw danych
  2. Brak linku do zestawu danych
  3. każdy zestaw danych musi być powiązany

    • nazwisko (aby dowiedzieć się, o co chodzi) i link do zbioru danych (zbiory danych R można nazwać z nazwą pakietu)

    • liczba funkcji (powiedzmy, że to p ) rozmiar zbioru danych (powiedzmy, że to n ) i liczba etykiet / klasy (powiedzmy, że to k )

    • typowy poziom błędu z twojego doświadczenia (podaj użyty algorytm w słowach) lub z literatury (w tym ostatnim przypadku połącz papier)

robin girard
źródło
+1, ale te z NIPS2003 mają tylko etykiety na pociągi - w dokumencie NIPS2003 wyraźnie napisano: „Etykiety walidacji i zestawów testowych są wstrzymane”.
denis
Dzięki. Komentarz na temat NIPS dotyczy odpowiedzi z @mbq.
robin girard
Czy ktoś tu ma wysokowymiarowy zestaw danych z więcej niż dwiema etykietami klasy?
hlin117

Odpowiedzi:

3

Dorothea
n = 1950
p = 100000 (0,1 M, połowa to sztucznie dodany szum)
k = 2 (~ 10x niezrównoważony)
Z NIPS2003 .

użytkownik88
źródło
Czy możesz wyjaśnić, jak to jest 100000 funkcji? Patrzę na dane treningowe i każda linia ma może 2500 liczb całkowitych na linię.
JeremyKun
Jest to rzadka tablica, liczba całkowita N oznacza, że ​​wartość atrybutu N wynosi 1.
3

Gisette
n = 13500
p = 5000 (połowa to sztucznie dodany hałas)
k = 2 (zrównoważony)
Z NIPS2003 .

użytkownik88
źródło
3

Dexter
n = 2600
p = 20000 (10k + 53 to sztuczny hałas)
k = 2 (zrównoważony)
Z NIPS2003 .

użytkownik88
źródło
Nie rozumiem ... jeden zestaw na osobę?
@robin & @mbq Sugeruję utrzymanie jednego zestawu danych na post. Dzięki temu ludzie mogą głosować, który z sugerowanych tam również sugeruje / popiera
Peter Smit
@Peter, OK, podążam za twoim pomysłem, odpowiednio zmieniłem pytanie.
robin girard
3

Arcene
n = 900
p = 10000 (3k to sztucznie dodany szum)
k = 2 (~ zrównoważony)
Z NIPS2003 .

użytkowników88
źródło
2

Prostata (tablica ekspresji genów)

  • k = 2
  • n = 48 + 52
  • p = 6033

Dostępne poprzez (między innymi) pakietu R SPL nazwę zestawu danych: prostatę

współczynnik błędu = 3/102 (patrz tutaj ) również myślę, że są papiery, które wykazują współczynnik błędu 1/102. Powiedziałbym, że to łatwy przypadek testowy.

obrotowy
źródło