Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]

35

Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)?

Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych

Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady:

Jeden post na zestaw danych
Brak linku do zestawu danych
każdy zestaw danych musi być powiązany
- nazwisko (aby dowiedzieć się, o co chodzi) i link do zbioru danych (zbiory danych R można nazwać z nazwą pakietu)
- liczba funkcji (powiedzmy, że to p ) rozmiar zbioru danych (powiedzmy, że to n ) i liczba etykiet / klasy (powiedzmy, że to k )
- typowy poziom błędu z twojego doświadczenia (podaj użyty algorytm w słowach) lub z literatury (w tym ostatnim przypadku połącz papier)

machine-learning classification dataset large-data robin girard
źródło

+1, ale te z NIPS2003 mają tylko etykiety na pociągi - w dokumencie NIPS2003 wyraźnie napisano: „Etykiety walidacji i zestawów testowych są wstrzymane”.

denis

Dzięki. Komentarz na temat NIPS dotyczy odpowiedzi z @mbq.

robin girard

Czy ktoś tu ma wysokowymiarowy zestaw danych z więcej niż dwiema etykietami klasy?

hlin117

3

Dorothea
n = 1950
p = 100000 (0,1 M, połowa to sztucznie dodany szum)
k = 2 (~ 10x niezrównoważony)
Z NIPS2003 .

użytkownik88
źródło

Czy możesz wyjaśnić, jak to jest 100000 funkcji? Patrzę na dane treningowe i każda linia ma może 2500 liczb całkowitych na linię.

JeremyKun

Jest to rzadka tablica, liczba całkowita N oznacza, że wartość atrybutu N wynosi 1.

3

Gisette
n = 13500
p = 5000 (połowa to sztucznie dodany hałas)
k = 2 (zrównoważony)
Z NIPS2003 .

użytkownik88
źródło

3

Dexter
n = 2600
p = 20000 (10k + 53 to sztuczny hałas)
k = 2 (zrównoważony)
Z NIPS2003 .

użytkownik88
źródło

Nie rozumiem ... jeden zestaw na osobę?

@robin & @mbq Sugeruję utrzymanie jednego zestawu danych na post. Dzięki temu ludzie mogą głosować, który z sugerowanych tam również sugeruje / popiera

Peter Smit

@Peter, OK, podążam za twoim pomysłem, odpowiednio zmieniłem pytanie.

robin girard

3

Arcene
n = 900
p = 10000 (3k to sztucznie dodany szum)
k = 2 (~ zrównoważony)
Z NIPS2003 .

użytkowników88
źródło

2

Prostata (tablica ekspresji genów)

k = 2
n = 48 + 52
p = 6033

Dostępne poprzez (między innymi) pakietu R SPL nazwę zestawu danych: prostatę

współczynnik błędu = 3/102 (patrz tutaj ) również myślę, że są papiery, które wykazują współczynnik błędu 1/102. Powiedziałbym, że to łatwy przypadek testowy.

obrotowy
źródło

Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]

Odpowiedzi: