Walidacja krzyżowa vs empiryczne Bayesa do szacowania hiperparametrów

Biorąc pod uwagę model hierarchiczny , chcę, aby dwuetapowy proces pasował do modelu. Najpierw napraw garść hiperparametrów , a następnie wykonaj wnioskowanie bayesowskie na pozostałych parametrach . Do ustalenia hiperparametrów rozważam dwie opcje. $p(x|\phi,\theta)$ $\theta$ $\phi$

Użyj Empirical Bayesa (EB) i zmaksymalizuj krańcowe prawdopodobieństwo (integrując resztę modelu, który zawiera parametry wysokowymiarowe). $p(\mbox{all data}|\theta)$
Użyj technik walidacji krzyżowej (CV) , takich jak krotna walidacja krzyżowa, aby wybrać która maksymalizuje prawdopodobieństwo . $k$ $\theta$ $p(\mbox{test data}|\mbox{training data}, \theta)$

Zaletą EB jest to, że mogę korzystać ze wszystkich danych jednocześnie, natomiast w przypadku CV muszę (potencjalnie) wielokrotnie obliczyć prawdopodobieństwo modelu i wyszukać . Wydajność EB i CV są porównywalne w wielu przypadkach (*), a często EB jest szybszy do oszacowania. $\theta$

Pytanie: Czy istnieje podstawa teoretyczna, która łączy te dwa elementy (powiedzmy, że EB i CV są takie same na granicy dużych danych)? Lub łączy EB z jakimś kryterium uogólnienia, takim jak ryzyko empiryczne? Czy ktoś może wskazać dobry materiał referencyjny?

(*) Jako przykład, oto rysunek z Murphy's Machine Learning , Rozdział 7.6.4, gdzie mówi, że w przypadku regresji grzbietu obie procedury dają bardzo podobny wynik:

Murphy mówi również, że podstawową praktyczną przewagą empirycznego Bayesa (nazywa to „procedurą dowodową”) nad CV jest, gdy składa się z wielu hiperparametrów (np. Oddzielna kara dla każdej cechy, jak w automatycznym określaniu trafności lub ARD). Tam nie można w ogóle użyć CV. $\theta$

cross-validation references empirical-bayes Memming
źródło

Czy możesz opisać bardziej szczegółowo, co robisz dla metody weryfikacji krzyżowej? Czy naprawiasz

a następnie używasz danych treningowych do oszacowania innych parametrów przed zatwierdzeniem?

θ

$\theta$

Neil G

@ NeilG maksymalizuje sumę prawdopodobieństwa logicznej krańcowej prognozy danych w zestawach walidacji krzyżowej (k jest zintegrowane).

Memming

k

$k$

Świetne pytanie. Pozwoliłem sobie dodać do twojego pytania cyfrę z podręcznika Murphy'ego, aby zilustrować twój pogląd na temat dwóch porównywalnych procedur. Mam nadzieję, że nie będziesz miał nic przeciwko temu dodatkowi.

ameba mówi Przywróć Monikę

Odpowiedzi:

Wątpię, aby istniał związek teoretyczny, który mówi, że maksymalizacja CV i dowodów są asymptotycznie równoważne, ponieważ dowody mówią nam o prawdopodobieństwie danych, biorąc pod uwagę założenia modelu . Zatem jeśli model zostanie źle określony, dowody mogą być niewiarygodne. Z drugiej strony walidacja krzyżowa daje oszacowanie prawdopodobieństwa danych, niezależnie od tego, czy założenia modelowania są prawidłowe, czy nie. Oznacza to, że dowody mogą być lepszym przewodnikiem, jeśli założenia modelowania są prawidłowe przy użyciu mniejszej ilości danych, ale weryfikacja krzyżowa będzie odporna na błędne specyfikacje modelu. CV jest asymptotycznie bezstronne, ale zakładam, że dowody nie są, chyba że założenia modelu okażą się dokładnie poprawne.

Jest to zasadniczo moja intuicja / doświadczenie; Chciałbym również usłyszeć o badaniach na ten temat.

Należy zauważyć, że w przypadku wielu modeli (np. Regresja grzbietu, procesy Gaussa, regresja grzbietu jądra / LS-SVM itp.) Krzyżową walidację można pominąć co najmniej tak samo skutecznie, jak oszacowanie dowodów, więc niekoniecznie jest to obliczenie przewaga tam.

Dodatek: Zarówno oszacowania krańcowego prawdopodobieństwa, jak i oceny wzajemnej walidacji są oceniane na podstawie skończonej próbki danych, a zatem zawsze istnieje możliwość nadmiernego dopasowania, jeśli model zostanie dostrojony przez optymalizację któregokolwiek z kryteriów. W przypadku małych próbek różnica w wariancji dwóch kryteriów może decydować, która z nich działa najlepiej. Zobacz mój artykuł

Gavin C. Cawley, Nicola LC Talbot, „O nadmiernym dopasowywaniu w wyborze modelu i późniejszym odchyleniu wyboru w ocenie wydajności”, Journal of Machine Learning Research, 11 (lipiec): 2079-2107, 2010. ( pdf )

Dikran Torbacz
źródło

Dlaczego mówisz, że CV jest odporne na błędnie określony model? W jego przypadku nie ma takiej ochrony, ponieważ walidacja krzyżowa przeszukuje tę samą przestrzeń, którą EB oblicza prawdopodobieństwo. Jeśli jego założenia dotyczące modelowania są błędne, weryfikacja krzyżowa go nie uratuje.

Neil G

ϕ

$\phi$

ϕ

$\phi$

θ

$\theta$

ps Przeprowadziłem analizę unikania nadmiernego dopasowania w sieciach neuronowych z regularyzacją bayesowską, w której parametry regularyzacji są dostrajane poprzez maksymalizację prawdopodobieństwa marginalnego. Są sytuacje, w których działa to bardzo źle (gorsze niż brak jakiejkolwiek regulacji). Wydaje się, że jest to problem nieprawidłowej specyfikacji modelu.

Dikran Marsupial

Może uzyskać ten sam „wskaźnik wydajności uogólnienia”, sprawdzając całkowite log-prawdopodobieństwo danych, biorąc pod uwagę szacunkowy rozkład zwracany przez EB (który będzie równy entropii tego rozkładu). W tym przypadku nie da się tego pokonać, ponieważ jest to analityczne rozwiązanie tego problemu. Nie rozumiem, dlaczego walidacja krzyżowa ma sens, kiedy można obliczyć prawdopodobieństwo dla EB.

Neil G

@probabilityislogic, nie jestem całkiem pewien, do czego zmierzasz (problem niewątpliwie na moim końcu!; o). Mogę powiedzieć z praktycznego doświadczenia, że problem jest bardzo realny. Od kilku lat pracuję nad problemami w wyborze modelu i natknąłem się na wiele problemów, w których maksymalizacja marginalnego prawdopodobieństwa okazuje się bardzo złym pomysłem. Weryfikacja krzyżowa sprawdza się równie dobrze w przypadku większości zestawów danych, ale tam, gdzie działa ona słabo, rzadko działa katastrofalnie, jak to czasem bywa z maksymalizacją dowodów.

Dikran Torbacz

-1

$k$ $k$

Neil G.
źródło