Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje się zbyt wysokich i wydaje mi się, że zostałyby dotknięte przekleństwem wymiarowości. Ale wydaje się, że tak nie jest, ponieważ te modele czynią je najlepszymi w konkursach. Wracając do mojego pierwotnego pytania - czy niektóre modele są bardziej dotknięte przekleństwem wymiarowości niż inne?
W szczególności interesują mnie następujące modele (tylko dlatego, że są to te, o których jestem świadomy / których używałem):
- Regresja liniowa i logistyczna
- Drzewa decyzyjne / RandomForest / Boosted Trees
- Sieci neuronowe
- SVM
- kNN
- k-oznacza grupowanie
źródło
Odpowiedzi:
Ogólnie rzecz biorąc, klątwa wymiarowa znacznie utrudnia przeszukiwanie przestrzeni i wpływa na większość algorytmów, które „uczą się” poprzez dzielenie przestrzeni wektorowej. Im większa wymiarowość naszego problemu optymalizacji, tym więcej danych potrzebujemy, aby wypełnić przestrzeń, nad którą optymalizujemy.
Uogólnione modele liniowe
Modele liniowe ogromnie cierpią z powodu przekleństwa wymiarowości. Modele liniowe dzielą przestrzeń na jedną płaszczyznę liniową. Nawet jeśli nie szukasz bezpośrednio obliczeniowej p = ( Xproblem jakie jest nadal bardzo wrażliwe na kolinearności i może być uważany za „źle uwarunkowane” bez pewnego rodzaju uregulowania. W przestrzeniach o bardzo dużych wymiarach istnieje więcej niż jedna płaszczyzna, którą można dopasować do danych, a bez odpowiedniego rodzaju regularyzacji może bardzo źle zachowywać się w modelu. W szczególności regularyzacja próbuje zmusić do istnienia jednego unikalnego rozwiązania. Zarówno regularyzacja L1, jak i kwadratowa L2 próbują zminimalizować wagi i można je interpretować wybierając model o najmniejszych wagach, aby być najbardziej „poprawnym” modelem. Można to uznać za matematyczne sformułowanie Occams Razor.
Drzewa decyzyjne Drzewa
decyzyjne również cierpią z powodu przekleństwa wymiarowości. Drzewa decyzyjne bezpośrednio dzielą przestrzeń próbki w każdym węźle. Wraz ze wzrostem przestrzeni próbnej rosną odległości między punktami danych, co znacznie utrudnia znalezienie „dobrego” podziału.
Losowe lasy
Losowe lasy używają kolekcji drzew decyzyjnych do przewidywania. Ale zamiast korzystać ze wszystkich funkcji problemu, pojedyncze drzewa używają tylko podzbioru funkcji. To minimalizuje przestrzeń, nad którą optymalizuje się każde drzewo i może pomóc w walce z problemem przekleństwa wymiarowości.
Algorytmy Boosted Tree, takie jak AdaBoost, cierpią z powodu przekleństwa wymiarów i mają tendencję do nadmiernego wykorzystania, jeśli nie stosuje się regularyzacji. Nie będę zagłębiał się, ponieważ post Czy AdaBoost jest mniej lub bardziej podatny na nadmierne dopasowanie? wyjaśnia powód, dlaczego lepiej niż mogłem.
Sieci neuronowe
Sieci neuronowe są dziwne w tym sensie, że na oba są i nie mają wpływu klątwa wymiarowości zależna od architektury, aktywacji, głębokości itp. Aby powtórzyć klątwę wymiarowości, problemem jest to, że ogromna liczba punktów jest potrzebna na wysokości wymiary pokrywające przestrzeń wejściową. Jednym ze sposobów interpretacji głębokich sieci neuronowych jest pomyślenie, że wszystkie warstwy oczekują, że ostatnia warstwa będzie wykonywać skomplikowane odwzorowanie wielowymiarowego rozgałęzienia na rozgałęzienie o niższym wymiarze, gdzie następnie ostatnia warstwa klasyfikuje się na wierzchu. Na przykład w sieci splotowej do klasyfikacji, w której ostatnia warstwa jest warstwą softmax, możemy interpretować architekturę jako wykonanie nieliniowej projekcji na mniejszy wymiar, a następnie wykonanie wielomianowej regresji logistycznej (warstwa softmax) na tej projekcji. W pewnym sensie skompresowana reprezentacja naszych danych pozwala nam ominąć przekleństwo wymiarowości. Ponownie, jest to jedna interpretacja, w rzeczywistości przekleństwo wymiarowości faktycznie wpływa na sieci neuronowe, ale nie na tym samym poziomie, co modele przedstawione powyżej.
SVM
SVM ma tendencję do nie przeciążania tak bardzo, jak uogólnionych modeli liniowych z powodu nadmiernej regularności. Sprawdź ten post SVM, Przebicie, przekleństwo wymiarów, aby uzyskać więcej szczegółów.
K-NN, K-oznacza
Zarówno na średnią K, jak i K-NN duży wpływ ma przekleństwo wymiarowości, ponieważ obaj używają miary odległości L2 do kwadratu. Wraz ze wzrostem liczby wymiarów rośnie również odległość między różnymi punktami danych. Dlatego potrzebujesz większej liczby punktów, aby pokryć więcej miejsca w nadziei, że odległość będzie bardziej opisowa.
Zapytaj mnie o szczegóły dotyczące modeli, ponieważ moje odpowiedzi są dość ogólne. Mam nadzieję że to pomoże.
źródło