W książce Bishopa PRML mówi, że nadmierne dopasowanie jest problemem związanym z oszacowaniem maksymalnej wiarygodności (MLE), a Bayesian może tego uniknąć.
Ale myślę, że nadmierne dopasowanie to problem bardziej związany z wyborem modelu, a nie z metodą stosowaną do oszacowania parametrów. To znaczy, załóżmy, że mam zestaw danych , który jest generowany przez , teraz mogę wybrać inne modele aby dopasować dane i dowiedzieć się która jest najlepsza. Rozważane modele to modele wielomianowe o różnych rzędach, to rząd 1, to rząd 2, to rząd 9.f ( x ) = s i n ( x ) ,H i H 1 H 2 H 3
Teraz próbuję dopasować dane do każdego z 3 modeli, każdy model ma swoje parametry, oznaczone jako dla .w i H i
Korzystając z ML, będę miał punktową ocenę parametrów modelu , a jest zbyt proste i zawsze będzie niedopasowane do danych, podczas gdy jest zbyt skomplikowane i przewyższy dane, tylko dobrze pasuje do danych.H 1 H 3 H 2
Moje pytania są
1) Model zastąpi dane, ale nie sądzę, że jest to problem ML, ale problem samego modelu. Ponieważ użycie ML dla nie powoduje nadmiernego dopasowania. Czy mam rację?H 1 , H 2
2) W porównaniu z Bayesianem ML ma pewne wady, ponieważ po prostu daje punktowe oszacowanie parametrów modelu i jest zbyt pewny siebie. Podczas gdy Bayesian nie polega tylko na najbardziej prawdopodobnej wartości parametru, ale na wszystkich możliwych wartościach parametrów, biorąc pod uwagę zaobserwowane dane , prawda?D
3) Dlaczego Bayesian może uniknąć lub ograniczyć nadmierne dopasowanie? Jak rozumiem, możemy użyć Bayesian do porównania modeli, to znaczy, biorąc pod uwagę dane , moglibyśmy ustalić krańcowe prawdopodobieństwo (lub dowody modelowe) dla każdego rozważanego modelu, a następnie wybrać ten o najwyższym krańcowym prawdopodobieństwie, prawda ? Jeśli tak, to dlaczego?
źródło
Ogólnie rzecz biorąc, jeśli używasz modeli regresji typu „najmniejszych kwadratów”, naprawdę nie ma dużej różnicy między bayes a ML, chyba że użyjesz informacyjnego wcześniej dla parametrów regresji. W odpowiedzi na szczegóły:
3) Podejście bayesowskie pozwala uniknąć nadmiernego dopasowania tylko w przypadku odpowiednich priorytetów. Działa to w sposób podobny do karnych terminów widocznych w niektórych algorytmach dopasowania. Na przykład kara za L2 = wcześniejsza norma, kara za L1 = poprzednia okrążenie.
źródło
źródło