Bayesian vs MLE, problem przeuczenia

13

W książce Bishopa PRML mówi, że nadmierne dopasowanie jest problemem związanym z oszacowaniem maksymalnej wiarygodności (MLE), a Bayesian może tego uniknąć.

Ale myślę, że nadmierne dopasowanie to problem bardziej związany z wyborem modelu, a nie z metodą stosowaną do oszacowania parametrów. To znaczy, załóżmy, że mam zestaw danych , który jest generowany przez , teraz mogę wybrać inne modele aby dopasować dane i dowiedzieć się która jest najlepsza. Rozważane modele to modele wielomianowe o różnych rzędach, to rząd 1, to rząd 2, to rząd 9.f ( x ) = s i n ( x ) ,reH i H 1 H 2 H 3

fa(x)=sjan(x),x[0,1]
H.jaH.1H.2)H3

Teraz próbuję dopasować dane do każdego z 3 modeli, każdy model ma swoje parametry, oznaczone jako dla .w i H iDwiHi

Korzystając z ML, będę miał punktową ocenę parametrów modelu , a jest zbyt proste i zawsze będzie niedopasowane do danych, podczas gdy jest zbyt skomplikowane i przewyższy dane, tylko dobrze pasuje do danych.H 1 H 3 H 2wH1H3H2

Moje pytania są

1) Model zastąpi dane, ale nie sądzę, że jest to problem ML, ale problem samego modelu. Ponieważ użycie ML dla nie powoduje nadmiernego dopasowania. Czy mam rację?H 1 , H 2H3H1,H2

2) W porównaniu z Bayesianem ML ma pewne wady, ponieważ po prostu daje punktowe oszacowanie parametrów modelu i jest zbyt pewny siebie. Podczas gdy Bayesian nie polega tylko na najbardziej prawdopodobnej wartości parametru, ale na wszystkich możliwych wartościach parametrów, biorąc pod uwagę zaobserwowane dane , prawda?DwD

3) Dlaczego Bayesian może uniknąć lub ograniczyć nadmierne dopasowanie? Jak rozumiem, możemy użyć Bayesian do porównania modeli, to znaczy, biorąc pod uwagę dane , moglibyśmy ustalić krańcowe prawdopodobieństwo (lub dowody modelowe) dla każdego rozważanego modelu, a następnie wybrać ten o najwyższym krańcowym prawdopodobieństwie, prawda ? Jeśli tak, to dlaczego?D

awokado
źródło

Odpowiedzi:

20

Optymalizacja jest źródłem wszelkiego zła w statystykach. Za każdym razem, gdy dokonujesz wyborów dotyczących modelu 1 , optymalizując jakieś odpowiednie kryterium ocenione na skończonej próbce danych, ryzykujesz nadmiernym dopasowaniem kryterium, tj. Zmniejszeniem statystyki poza punkt, w którym uzyskuje się poprawę wydajności uogólnienia, a redukcja wynosi zamiast tego zyskuje dzięki wykorzystaniu specyfiki próbki danych, np. hałasu). Powodem, dla którego metoda Bayesa działa lepiej, jest to, że niczego nie optymalizujesz, ale zamiast tego marginalizujesz (integrujesz) wszystkie możliwe opcje. Problem polega zatem na wyborze wcześniejszych przekonań dotyczących modelu, więc jeden problem zniknął, ale na jego miejsce pojawia się inny.1


Obejmuje to maksymalizację dowodów (niewielkie prawdopodobieństwo) w otoczeniu bayesowskim. Na przykład, zobacz wyniki dla klasyfikatorów Procesu Gaussa w moim artykule, gdzie optymalizacja marginalnego prawdopodobieństwa pogarsza model, jeśli masz zbyt wiele hiperparametrów (wybór nut według prawdopodobieństwa marginalnego będzie miał tendencję do faworyzowania modeli z dużą ilością hiper -parametry w wyniku tej formy nadmiernego dopasowania).1

GC Cawley i NLC Talbot, Nadmierne dopasowanie w wyborze modelu, a następnie uprzedzenie wyboru w ocenie wydajności, Journal of Machine Learning Research, 2010. Research, vol. 11, s. 2079–2107, lipiec 2010 r. ( Pdf )

Dikran Torbacz
źródło
+1, dziękuję bardzo, przeczytam waszą gazetę i zobaczę, czy mam jeszcze jakieś pytania ;-)
awokado
1
Wystarczy zauważyć, że optymalizację można zwykle traktować jako przybliżoną integrację - przykładem tego jest metoda Laplace'a. Optymalizacja zwykle kończy się niepowodzeniem, gdy nie jest dobrym przybliżeniem do integracji - dlatego też REML jest zwykle lepszy niż ML.
probabilityislogic
@probabilityislogic, nie jestem pewien, czy rozumiem, ML jest trochę podobny do MAPY, integracja nie jest przeprowadzana. Korzystanie z aproksymacji Laplace'a (tak, jak ją widziałem) jest optymalizacją w tym sensie, że optymalizujesz aproksymację funkcji, którą chcesz zintegrować, i integrujesz ją, ale integracja wciąż trwa.
Dikran Torbacz
1
@ torbacz dikranowy - Być może lepszym sposobem na wyjaśnienie tego jest fakt, że integracja jest często dobrze przybliżona poprzez oszacowanie parametru przez ML i ograniczenie tego parametru do jego równości MLE. Przybliżenie Laplace'a zapewnia „współczynnik korekcji” tej intuicji - w taki sam sposób, jak REML.
probabilityislogic
@probabilityislogic dzięki za odpowiedź, dam jej do myślenia!
Dikran Torbacz
8

Ogólnie rzecz biorąc, jeśli używasz modeli regresji typu „najmniejszych kwadratów”, naprawdę nie ma dużej różnicy między bayes a ML, chyba że użyjesz informacyjnego wcześniej dla parametrów regresji. W odpowiedzi na szczegóły:

H.9H.1

x

3) Podejście bayesowskie pozwala uniknąć nadmiernego dopasowania tylko w przypadku odpowiednich priorytetów. Działa to w sposób podobny do karnych terminów widocznych w niektórych algorytmach dopasowania. Na przykład kara za L2 = wcześniejsza norma, kara za L1 = poprzednia okrążenie.

prawdopodobieństwo prawdopodobieństwa
źródło
H.9
H.
H.9
5

H.1H.2)H.3)

2)H.1

l1

Youloush
źródło
Prosta hipoteza (np. H1, h2) z niewystarczającymi próbami treningowymi byłaby przykładem niedopasowania (dla cv) i niedopasowania z powodu błędu modelu w kilku podanych przykładach treningu.
yekta