Regresja procesu Gaussa dla zestawów danych wielowymiarowych

10

Chciałem tylko sprawdzić, czy ktoś ma jakiekolwiek doświadczenie w stosowaniu regresji procesu Gaussa (GPR) w zestawach danych o dużych wymiarach. Zajmuję się niektórymi z różnych rzadkich metod GPR (np. Rzadkie pseudo-wejściowe GPR), aby zobaczyć, co może zadziałać w przypadku zestawów danych o dużych wymiarach, w których wybór cech jest idealnie częścią procesu wyboru parametrów.

Wszelkie sugestie dotyczące dokumentów / kodu / lub różnych metod wypróbowania są zdecydowanie mile widziane.

Dzięki.

Tomas
źródło
2
Jak wspomniano, pytanie to jest dość niejasne. Pytania, które są samowystarczalne, konkretne i dobrze umotywowane, zwykle przyciągają najwięcej uwagi i najlepsze odpowiedzi. (Na przykład, jeśli masz konkretny problem, który próbujesz rozwiązać, rozważ podanie wystarczających szczegółów, aby czytelnicy mogli zrozumieć, co próbujesz zrobić).
kardynał

Odpowiedzi:

13

Modele procesów gaussowskich są na ogół w porządku z wysokowymiarowymi zestawami danych (użyłem ich z danymi mikromacierzy itp.). Kluczem jest wybór dobrych wartości dla hiper-parametrów (które skutecznie kontrolują złożoność modelu w podobny sposób, jak robi to regularyzacja).

Metody rzadkie i pseudo-wejściowe są bardziej przeznaczone dla zestawów danych z dużą liczbą próbek (> około 4000 dla mojego komputera) niż z dużą liczbą funkcji. Jeśli masz wystarczająco mocny komputer, aby wykonać rozkład Cholesky'ego macierzy kowariancji (n przez n, gdzie n jest liczbą próbek), prawdopodobnie nie potrzebujesz tych metod.

Jeśli jesteś użytkownikiem MATLAB, zdecydowanie polecam zestaw narzędzi GPML i książkę Rasmussena i Williamsa jako dobre miejsca na początek.

JEDNAK, jeśli jesteś zainteresowany wyborem funkcji, to unikałbym lekarzy ogólnych. Standardowym podejściem do wyboru funkcji za pomocą GP jest użycie jądra automatycznego określania istotności (np. CovSEard w GPML), a następnie osiągnięcie wyboru funkcji poprzez dostrajanie parametrów jądra w celu maksymalizacji marginalnego prawdopodobieństwa. Niestety jest bardzo prawdopodobne, że skończy się to nadmiernym dopasowaniem marginalnego prawdopodobieństwa i skończy się modelem, który działa (prawdopodobnie znacznie) gorzej niż model z prostą sferyczną kowalencyjną funkcją podstawy (covSEiso w GPML).

Moje obecne badania koncentrują się obecnie na nadmiernym dopasowaniu w wyborze modelu i odkryłem, że jest to tak samo problem dla maksymalizacji dowodów w GP, jak i dla optymalizacji opartej na weryfikacji krzyżowej hiperparaneterów w modelach jądra, aby uzyskać szczegółowe informacje zobacz ten artykuł i ten .

Wybór funkcji dla modeli nieliniowych jest bardzo trudny. Często uzyskuje się lepszą wydajność poprzez trzymanie się modelu liniowego i stosowanie metod regulacyjnych typu L1 (Lasso / LARS / siatka elastyczna itp.) W celu uzyskania rzadkich lub losowych metod leśnych.

Dikran Torbacz
źródło
Dzięki Dikran. Próbowałem spojrzeć na glmnet w R dla znormalizowanych modeli liniowych. Niestety moje prognozy są takie same (myślę, że jest to środek mojego zestawu treningowego). Wydaje się, że modele liniowe mają trudności z wyciągnięciem sygnału z moich danych. Dlatego szukałem modeli nieliniowych, które mogłyby poradzić sobie z wieloma funkcjami / potencjalnymi interakcjami cech. Jestem pewien, że to wiele wymaga. Wszelkie sugestie dotyczące tego frontu? Nie mam problemu z P >> N. Korzystanie ze 150 funkcji, 1000 przykładów.
tomas
Hej Dikran. To było dość niejasne pytanie, które zadałem w moich komentarzach przepraszam za to. Zadałem bardziej szczegółowe pytanie na tablicach. Jeszcze raz dziękuję za pomoc. stats.stackexchange.com/questions/30411/…
tomas
nie ma problemu, często znalezienie odpowiedzi na pytania jest trudniejsze niż udzielenie odpowiedzi! Zajmę się innymi pytaniami.
Dikran Marsupial
Dziękuję za tę odpowiedź. Czy w przypadku cech o dużych wymiarach, ale niezbyt dużego zestawu danych (n ~ 10k d ~ 1k), można użyć ARD do przyspieszenia obliczeń? Używam przybornika GPML. Czy możemy automatycznie „sparsify” macierz kowariancji, aby skupić się na odpowiednich funkcjach?
Emile
1
link „ r.csail.mit.edu/papers/v8/cawley07a.html ” nie działa ... Czy to ten? jmlr.org/papers/v8/cawley07a.html . Być może dodanie pełnych cytatów zamiast samych linków byłoby korzystne :-)
Ciekawy
4

Możesz spróbować użyć funkcji kowariancji zaprojektowanych specjalnie do przetwarzania danych o dużych wymiarach. Przejrzyj na przykład artykuł na temat funkcji kowariancji addytywnej . Działały one lepiej niż inne najnowocześniejsze funkcje kowariancji w moich eksperymentach numerycznych z niektórymi rzeczywistymi danymi o dość dużym wymiarze wejściowym (około ).30

Jeśli jednak wymiar wejściowy jest naprawdę ogromny (ponad lub ), wydaje się, że jakakolwiek metoda jądra zawiedzie i nie ma wykluczenia dla regresji procesów Gaussa.100200

Aleksiej Zajcew
źródło