Uczę procesu Gaussa z jądrem ARD z wieloma parametrami, maksymalizując krańcowe rozszerzanie danych, zamiast walidacji krzyżowej.
Podejrzewam, że to jest nadmierne dopasowanie. Jak mogę przetestować to podejrzenie w kontekście bayesowskim?
źródło
Uczę procesu Gaussa z jądrem ARD z wieloma parametrami, maksymalizując krańcowe rozszerzanie danych, zamiast walidacji krzyżowej.
Podejrzewam, że to jest nadmierne dopasowanie. Jak mogę przetestować to podejrzenie w kontekście bayesowskim?
Najprościej byłoby dopasować proces Gaussa do funkcji kowariancji innej niż ARD (zwykle RBF) i porównać wskaźniki błędów testu. W przypadku wielu problemów funkcja kowariancji ARD działa gorzej niż funkcja kowariancji innej niż ARD z powodu nadmiernego dopasowania dostrajania hiperparametrów. Ponieważ kowariancja RBF jest szczególnym przypadkiem kowariancji ARD, jeśli RBF działa lepiej, jest to mocne wskazanie, że jądro ARD jest nadmiernie dopasowane (zacznij optymalizować współczynniki ARD przy optymalnych wartościach dla odpowiedniej kowariancji RBF, jest to szybciej, a także pomaga upewnić się, że problem z kowariancją ARD nie wynika wyłącznie z minimów lokalnych na marginalnym prawdopodobieństwie). Jest to znacznie większy problem, niż się powszechnie ocenia.
Napisałem na ten temat kilka artykułów:
GC Cawley i NLC Talbot, Zapobieganie nadmiernemu dopasowaniu podczas wyboru modelu poprzez bayesowską regularyzację hiperparametrów, Journal of Machine Learning Research, tom 8, strony 841-861, kwiecień 2007 ( pdf )
i
GC Cawley i NLC Talbot, Nadmierne dopasowanie w wyborze modelu, a następnie uprzedzenie wyboru w ocenie wydajności, Journal of Machine Learning Research, 2010. Research, vol. 11, s. 2079–2107, lipiec 2010 r. ( Pdf )
Pierwszy obejmuje niektóre eksperymenty z lekarzami rodzinnymi, które pokazują, że nadmierne dopasowanie w wyborze modelu jest również problemem dla lekarzy rodzinnych z wyborem modelu opartym na maksymalnym prawdopodobieństwie.
Bardziej dokładna analiza polegałaby na ocenie błędu testu GP na każdym etapie optymalizacji marginalnego prawdopodobieństwa. Jest wysoce prawdopodobne, że uzyskasz klasyczną ocenę nadmiernego dopasowania, w której kryterium wyboru modelu maleje monotonicznie, ale błąd testu początkowo maleje, ale potem zaczyna ponownie rosnąć, ponieważ kryterium wyboru modelu jest nadmiernie zoptymalizowane (por. Ryc. 2a w dokumencie JMLR z 2010 r.).