Dane wielowymiarowe: jakie przydatne techniki należy znać?

14

Z powodu różnych przekleństw wymiarowych dokładność i szybkość wielu popularnych technik predykcyjnych obniżają się w przypadku danych o dużych wymiarach. Jakie są najbardziej przydatne techniki / triki / heurystyki, które pomagają skutecznie radzić sobie z danymi wielowymiarowymi? Na przykład,

Czy niektóre metody statystyczne / modelujące działają dobrze na wielowymiarowych zestawach danych?
Czy możemy poprawić wydajność naszych modeli predykcyjnych w danych wielowymiarowych, stosując pewne (definiujące alternatywne pojęcia odległości) lub jądra (definiujące alternatywne pojęcia iloczynu)?
Jakie są najbardziej przydatne techniki redukcji wymiarowości dla danych wielowymiarowych?

machine-learning statistics dimensionality-reduction ASX
źródło

10

To bardzo szerokie pytanie, które moim zdaniem nie jest w stanie ująć kompleksowo w jednej odpowiedzi. Dlatego uważam, że korzystniejsze byłoby podanie pewnych wskazówek dotyczących odpowiednich odpowiedzi i / lub zasobów. Właśnie to zrobię, przekazując następujące informacje i moje przemyślenia.

Przede wszystkim powinienem wspomnieć o doskonałym i kompleksowym samouczku na temat zmniejszania wymiarów autorstwa Burgesa (2009) z Microsoft Research. W monografii często porusza aspekty wielowymiarowe danych. Praca ta, odnosząca się do zmniejszenia wymiarów jako zmniejszenia wymiarów , przedstawia teoretyczne wprowadzenie do problemu , sugeruje taksonomię metod zmniejszania wymiarów, obejmujących metody projekcyjne i różnorodne metody modelowania , a także zapewnia przegląd wielu metod w każdej kategorii.

Przeglądane metody „ przewidującej realizacji” obejmują analizę niezależnych składników (ICA) , analizę głównych składników (PCA) i jej odmiany, takie jak PCA jądra i probabilistyczna PCA , analizę korelacji kanonicznej (CCA) i jej odmiana CCA jądra , liniowa analiza dyskryminacyjna (LDA ) , redukcja wymiarów jądra (KDR) i niektóre inne. Te różnorodne metody oceniane obejmują wielowymiarową skalowania (MDS) , a jego punkt MDS zmiana, Isomap , lokalnie liniowa Osadzanieoraz metody graficzne, takie jak Laplacian własne mapy i grupowanie spektralne . Podaję tutaj większość sprawdzonych metod na wypadek, gdyby oryginalna publikacja była dla ciebie niedostępna, albo online (link powyżej), albo offline (referencje).

Istnieje zastrzeżenie dla terminu „kompleksowy”, który zastosowałem do wyżej wymienionej pracy. Chociaż jest on raczej dość kompleksowy, jest on względny, ponieważ niektóre podejścia do redukcji wymiarowości nie są omówione w monografii, w szczególności te skupione na zmiennych nieobserwowalnych (utajonych) . Niektóre z nich są jednak wymienione w odniesieniu do innego źródła - książki o redukcji wymiarów.

Teraz pokrótce omówię kilka węższych aspektów omawianego tematu, odnosząc się do moich odpowiednich lub powiązanych odpowiedzi. Jeśli chodzi o podejście do danych wielowymiarowych typu NN) , proszę zobaczyć moje odpowiedzi tutaj (szczególnie polecam sprawdzić artykuł nr 4 na mojej liście). Jednym z efektów przekleństwa wymiarowości jest to, że dane wielowymiarowe są często rzadkie . Biorąc pod uwagę ten fakt, uważam, że moje odpowiednie odpowiedzi tu i tutaj na temat regresji i PCA dla danych rzadkich i wielowymiarowych mogą być pomocne.

Bibliografia

Burges, CJC (2010). Redukcja wymiarów: wycieczka z przewodnikiem. Podstawy i trendy® w uczeniu maszynowym, 2 (4), 275–365. doi: 10.1561 / 2200000002

Aleksandr Blekh
źródło

0

Aleksander udzielił bardzo wyczerpującej odpowiedzi, ale kilka z nich jest pozwanych bardzo szeroko:

Do redukcji wymiarowości stosuje się PCA, która jednak dokonuje jedynie transformacji liniowej, a dla nieliniowej redukcji wymiarowości uczenie się w Kolektorze jest tym, czego szukasz.

Rzutowanie danych o niższych wymiarach na wyższe wymiary można wykonać za pomocą jąder. Zwykle robisz to, gdy klasyfikator nie jest w stanie znaleźć liniowej płaszczyzny separacji w bieżącym wymiarze, ale będzie w stanie znaleźć liniową hiperpłaszczyznę, która oddziela klasy w wyższym wymiarze. Jądra są szeroko stosowane w SVM.

Baran
źródło

Dane wielowymiarowe: jakie przydatne techniki należy znać?

Odpowiedzi: