Rozumiem, co to jest „klątwa wymiarowości”, i zrobiłem kilka problemów związanych z optymalizacją wymiarów i znam wyzwanie możliwości wykładniczych.
Wątpię jednak, czy „przekleństwo wymiarowości” istnieje w większości danych rzeczywistych (odłóżmy na chwilę zdjęcia lub filmy, myślę o danych takich jak dane demograficzne klientów i dane dotyczące zachowań zakupowych).
Możemy gromadzić dane z tysiącami funkcji, ale jest mniej prawdopodobne, że nawet niemożliwe, że funkcje mogą w pełni obejmować przestrzeń o tysiącach wymiarów. Dlatego techniki redukcji wymiarów są tak popularne.
Innymi słowy, jest bardzo prawdopodobne, że dane nie zawierają wykładniczego poziomu informacji, tj. Wiele cech jest silnie skorelowanych i wiele cech spełnia reguły 80-20 (wiele instancji ma tę samą wartość).
W takim przypadku uważam, że metody takie jak KNN nadal będą działać dość dobrze. (W większości książek „przekleństwo wymiarowości” mówi, że wymiar> 10 może być problematyczny. W swoich demach używają równomiernego rozkładu we wszystkich wymiarach, gdzie entropia jest naprawdę wysoka. Wątpię, czy w prawdziwym świecie to się kiedykolwiek wydarzy.)
Moje osobiste doświadczenie z rzeczywistymi danymi jest takie, że „klątwa wymiarowości” nie wpływa zbytnio na metodę szablonów (np. KNN) i w większości przypadków wymiary ~ 100 nadal działałyby.
Czy to prawda dla innych ludzi? (Pracowałem z prawdziwymi danymi w różnych branżach przez 5 lat, nigdy nie zauważyłem, że „wszystkie pary odległości mają podobne wartości” jak opisano w książce).
Odpowiedzi:
Ten artykuł (1) omawia błogosławieństwo niejednorodności jako kontrapunkt dla przekleństwa wymiarowości. Główną ideą jest to, że dane nie są równomiernie rozproszone w przestrzeni cech, dzięki czemu można uzyskać przyczepność, identyfikując sposoby ich organizacji.
(1) Pedro Domingos, „Kilka przydatnych rzeczy na temat uczenia maszynowego”
źródło
Klątwa wymiarowości w uczeniu maszynowym jest częściej problemem eksplozji pustej przestrzeni między kilkoma punktami danych, które masz. Niska różnorodność danych może nawet pogorszyć sytuację. Oto przykładowa konfiguracja z 10000 próbkami, w których próbuję wykonać kNN z 1 sąsiadem.
Nie podobały ci się w pełni jednorodne rozkłady, dlatego stworzyłem to kolektor 2D o mniejszych wymiarach (zmniejszonych o
scale
) rozsianych wokół płaszczyzny 2D dwóch pierwszych współrzędnych. Tak się składa, że jeden z mniejszych wymiarów ma charakter predykcyjny (etykieta ma wartość 1, gdy wymiar ten jest dodatni).Precyzja spada szybko wraz ze wzrostem wymiarów.
Oczywiście precyzja = 0,5 byłaby przypadkowym zgadywaniem. Z powierzchnią decyzyjną, która jest bardziej skomplikowana niż samolot, byłoby jeszcze gorzej.
To tak, jakby kule kNN były zbyt rzadkie, aby były pomocne w badaniu gładkiej hiperpłaszczyzny. Przy wyższych wymiarach czują się coraz bardziej samotni.
Z drugiej strony metody takie jak SVM mają widok globalny i radzą sobie znacznie lepiej.
źródło
Rozważmy na przykład szeregi czasowe (i obrazy oraz audio). Odczyty czujników (Internet przedmiotów) są bardzo powszechne.
Klątwa wymiarowości jest o wiele bardziej powszechna niż myślisz. Jest tam duża redundancja, ale także dużo hałasu.
Problem polega na tym, że wiele osób po prostu unika tych wyzwań związanych z rzeczywistymi danymi i używa tylko tych samych zestawów danych UCI, które zostały odświeżone.
źródło
Jest wspaniały artykuł „Modelowanie statystyczne: dwie kultury” autorstwa Breimana. Wyjaśnia dwie grupy naukowców zajmujących się danymi i to, jak każda z nich patrzy na „wymiarowość”. Odpowiedź na twoje pytanie brzmi: „zależy”, w której grupie jesteś. Sprawdź papier.
źródło