Edycje: Dodałem prosty przykład: wnioskowanie o średniej . Wyjaśniłem też nieco, dlaczego wiarygodne przedziały niepasujące do przedziałów ufności są złe.
Ja, dość pobożny Bayesjan, jestem w trakcie pewnego rodzaju kryzysu wiary.
Mój problem jest następujący. Załóżmy, że chcę przeanalizować niektóre dane IID . Chciałbym:
najpierw zaproponuj model warunkowy:
Następnie wybierz opcję poprzedzającą :
Na koniec zastosuj regułę Bayesa, obliczyć tylną część: (lub jakieś przybliżenie, jeśli powinno być niemożliwe do obliczenia) i odpowiedz na wszystkie pytania dotyczące
Jest to rozsądne podejście: jeśli prawdziwy model danych jest rzeczywiście „wewnątrz” mojego warunku (odpowiada pewnej wartości θ 0 ), to mogę przywołać teorię decyzji statystycznych, aby powiedzieć, że moja metoda jest dopuszczalna (patrz Szczegóły Roberta „Wybór Bayesa”; „Wszystkie statystyki” również dają jasny opis w odpowiednim rozdziale).
Jednak, jak wszyscy wiedzą, założenie, że mój model jest poprawny, jest dość aroganckie: dlaczego natura powinna wpaść w ramkę modeli, które rozważałem? O wiele bardziej realistyczne jest założenie, że rzeczywisty model danych różni się od p ( X | θ ) dla wszystkich wartości θ . Jest to zwykle nazywane „błędnie określonym” modelem.
Mój problem polega na tym, że w tym bardziej realistycznym, źle określonym przypadku nie mam dobrych argumentów za byciem Bayesianem (tj. Obliczeniem rozkładu tylnego) w porównaniu do zwykłego obliczenia estymatora maksymalnej wiarygodności (MLE):
Rzeczywiście, według Kleijna, vd Vaart (2012) , w źle określonym przypadku rozkład tylny:
zbiega się jako do dystrybucji dirac wyśrodkowanej wθ M L
nie ma prawidłowej wariancji (chyba że dwie wartości są po prostu takie same), aby zapewnić wiarygodne przedziały przedziałów ufności dla dopasowania tylnego dla . (Należy zauważyć, że chociaż przedziały ufności są oczywiście czymś, na czym Bayesianie nie przejmują się nadmiernie, jakościowo oznacza to, że rozkład tylny jest wewnętrznie niewłaściwy, ponieważ sugeruje, że jego wiarygodne przedziały nie mają właściwego zasięgu)
W związku z tym płacimy premię obliczeniową (wnioskowanie bayesowskie jest na ogół droższe niż MLE) za brak dodatkowych właściwości
Wreszcie moje pytanie: czy są jakieś argumenty, zarówno teoretyczne, jak i empiryczne, przemawiające za wykorzystaniem wnioskowania bayesowskiego nad prostszą alternatywą MLE, gdy model jest źle określony?
(Ponieważ wiem, że moje pytania są często niejasne, daj mi znać, jeśli czegoś nie rozumiesz: spróbuję to sformułować)
Edycja: rozważmy prosty przykład: wnioskowanie o średniej podstawie modelu Gaussa (ze znaną wariancją aby jeszcze bardziej uprościć). Uważamy przeora Gaussa: oznaczamy średnią wcześniejszą, odwrotną wariancją wcześniejszego. Niech będzie empiryczną średnią . Na koniec zwróć uwagę: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + n
Rozkład tylny to:
W prawidłowo określonym przypadku (gdy naprawdę ma rozkład Gaussa), ten tylny ma następujące miłe właściwości
Jeśli są generowane z modelu hierarchicznego, w którym ich wspólna średnia jest wybierana z wcześniejszego rozkładu, wtedy wiarygodne przedziały tylne mają dokładne pokrycie. Zależnie od danych, prawdopodobieństwo, że będzie w dowolnym przedziale, jest równe prawdopodobieństwu, które posterior przypisuje temu przedziałowi θ
Nawet jeśli wcześniejsze nie jest poprawne, wiarygodne przedziały mają prawidłowe pokrycie w limicie w którym zanika wcześniejszy wpływ na tył
tylny ponadto ma dobre właściwości częstokształtne: każdy estymator bayesowski skonstruowany z tylnego jest gwarantowany jako dopuszczalny, średnia tylna jest wydajnym estymatorem (w sensie Cramera-Rao) średniej, wiarygodne przedziały są asymptotycznie przedziałami ufności.
W źle określonym przypadku większość z tych właściwości nie jest gwarantowana przez teorię. Aby naprawić pomysły, załóżmy, że prawdziwym modelem dla jest to, że są to rozkłady Studentów. Jedyną właściwością, którą możemy zagwarantować (Kleijn i in.) Jest to, że rozkład tylny koncentruje się na rzeczywistym w granicy . Ogólnie rzecz biorąc, wszystkie właściwości pokrycia zniknęłyby. Co gorsza, ogólnie możemy zagwarantować, że w tym limicie właściwości pokrycia są zasadniczo błędne: rozkład tylny przypisuje błędne prawdopodobieństwo różnym obszarom przestrzeni.X i n → ∞
źródło
Odpowiedzi:
Rozważam podejście bayesowskie, gdy mój zestaw danych nie jest wszystkim, co wiadomo na ten temat, i chcę w jakiś sposób włączyć tę egzogeniczną wiedzę do mojej prognozy.
Na przykład mój klient chce prognozy niespłacenia kredytu w swoim portfelu. Posiadają 100 pożyczek z kilkuletnimi kwartalnymi danymi historycznymi. Było kilka przypadków przestępczości (opóźniona płatność) i tylko kilka domyślnych. Jeśli spróbuję oszacować model przeżycia na tym zestawie danych, będzie bardzo mało danych do oszacowania i zbyt duża niepewność do prognozowania.
Z drugiej strony zarządzający portfelem to doświadczeni ludzie, niektórzy z nich mogli spędzić dekady na zarządzaniu relacjami z pożyczkobiorcami. Mają pomysły, jakie powinny być domyślne stawki. Są w stanie wymyślić rozsądne priory. Uwaga, nie prawdopodobieństwa a priori, które mają ładne własności matematycznych i wyglądają atrakcyjne intelektualnie do mnie . Porozmawiam z nimi i wydobędę ich doświadczenia i wiedzę w formie tych przeorów.
Teraz ramy bayesowskie zapewnią mi mechanikę łączenia wiedzy egzogenicznej w postaci priorów z danymi i uzyskania, moim zdaniem, a posterior, który jest lepszy zarówno od oceny jakościowej, jak i prognozy opartej na danych. To nie jest filozofia i nie jestem Bayesianinem. Po prostu używam narzędzi bayesowskich, aby konsekwentnie włączać wiedzę ekspercką do szacunków opartych na danych.
źródło
Bardzo interesujące pytanie ... które może nie mieć odpowiedzi (ale to nie czyni go mniej interesującym!)
Kilka myśli (i wiele linków do moich wpisów na blogu!) O tym memie, że wszystkie modele są złe :
źródło
Edycje: Dodano odniesienie do tego artykułu w treści, zgodnie z wnioskiem PO.
Daję odpowiedź jako naiwny empiryczny Bayesian.
Po pierwsze, rozkład tylny umożliwia wykonywanie obliczeń, których po prostu nie można wykonać za pomocą prostego MLE. Najprostszym przypadkiem jest to, że dzisiejszy późniejszy jest przeorem jutra . Wnioskowanie bayesowskie w naturalny sposób pozwala na sekwencyjne aktualizacje lub ogólnie ogólnie online lub opóźnioną kombinację wielu źródeł informacji (włączenie uprzedniej jest tylko jedną instancją podręcznika takiej kombinacji). Bayesowska teoria decyzji z funkcją nietrywialnych strat jest kolejnym przykładem. Nie wiedziałbym, co robić inaczej.
Po drugie, z tą odpowiedzią postaram się argumentować, że mantra, że kwantyfikacja niepewności jest na ogół lepsza niż brak niepewności, jest w rzeczywistości pytaniem empirycznym, ponieważ twierdzenia (jak wspomniałeś i o ile mi wiadomo) nie dają żadnych gwarancji.
Optymalizacja jako zabawkowy model badań naukowych
Domena, że czuję się w pełni oddaje złożoność problemu jest bardzo praktyczny, no-nonsense jeden, optymalizacja z czarnej skrzynki funkcja . Zakładamy, że możemy sekwencyjnie badać punkt x ∈ X i uzyskać możliwie hałaśliwą obserwację y = f ( x ) + ε , z ε ∼ N ( 0 , σ 2 ) . Naszym celem jest zbliżenie się jak najbliżej x ∗ = arg min xf:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) z minimalną liczbą ocen funkcji.x∗=argminxf(x)
Szczególnie skutecznym sposobem postępowania, jak można się spodziewać, jest zbudowanie modelu predykcyjnego tego, co by się stało, jeśli zapytam o dowolny , i wykorzystam te informacje, aby zdecydować, co dalej (lokalnie lub globalnie). Zobacz Rios i Sahinidis (2013) dla przeglądu pochodnych wolne globalnych metod optymalizacji. Gdy model jest wystarczająco złożony, nazywa się to meta-modelem lub funkcją zastępczą lub podejściem powierzchniowym odpowiedzi . Zasadniczo, model może być oszacowaniem punktowym f (np. Dopasowanie funkcji radialnej sieci bazowej do naszych obserwacji), lub możemy być Bayesowscy i jakoś uzyskać pełny rozkład bocznyx′∈X f (np. w procesie Gaussa).f
Optymalizacja bayesowska wykorzystuje a posteriorę nad (w szczególności łączną warunkową średnią a wariancję w dowolnym punkcie) do kierowania poszukiwaniem (globalnego) optimum przez jakąś zasadę heurystyczną. Klasycznym wyborem jest maksymalizacja oczekiwanej poprawy w stosunku do obecnego najlepszego punktu, ale istnieją nawet bardziej wyrafinowane metody, takie jak minimalizowanie oczekiwanej entropii nad lokalizacją minimum (patrz również tutaj ).f
Empiryczny wynik tutaj jest taki, że dostęp do tylnej części ciała, nawet jeśli częściowo błędnie określony, generalnie daje lepsze wyniki niż inne metody. (Istnieją zastrzeżenia i sytuacje, w których optymalizacja bayesowska nie jest lepsza niż wyszukiwanie losowe, na przykład w dużych wymiarach.) W tym artykule dokonujemy oceny empirycznej nowej metody BO w porównaniu z innymi algorytmami optymalizacji, sprawdzając, czy użycie BO jest wygodne w praktyce z obiecującymi wynikami.
Ponieważ pytałeś - ma to znacznie wyższy koszt obliczeniowy niż inne metody nie bayesowskie i zastanawiałeś się, dlaczego powinniśmy być Bayesianami. Zakłada się tutaj, że koszt związany z oceną prawdziwego (np. W prawdziwym scenariuszu, złożonym eksperymencie inżynierii lub uczenia maszynowego) jest znacznie większy niż koszt obliczeniowy analizy bayesowskiej, więc bycie Bayesianem się opłaca .f
Czego możemy się nauczyć z tego przykładu?
Po pierwsze, dlaczego w ogóle działa optymalizacja bayesowska? Myślę, że model jest zły, ale nie taki zły, i jak zwykle zło zależy od tego, do czego służy twój model. Na przykład dokładny kształt nie ma znaczenia dla optymalizacji, ponieważ moglibyśmy optymalizować dowolną jego monotoniczną transformację. Myślę, że natura jest pełna takich niezmienności. Tak więc wyszukiwanie, które przeprowadzamy, może nie być optymalne (tzn. Wyrzucamy dobre informacje), ale nadal jest lepsze niż bez informacji o niepewności.f
Po drugie, w naszym przykładzie podkreślono, że użyteczność bycia bayesowskim zależy od kontekstu , np. Względnego kosztu i ilości dostępnych zasobów (obliczeniowych). (Oczywiście, jeśli jesteś zatwardziałym Bayesianinem, wierzysz, że każde obliczenie jest wnioskiem Bayesowskim na podstawie wcześniejszych i / lub przybliżonych).
Wreszcie, najważniejsze pytanie - dlaczego modele, których używamy, wcale nie są takie złe , w tym sensie, że tylne ściany są nadal użyteczne, a nie statystyczne śmieci? Jeśli weźmiemy twierdzenie o braku darmowego lunchu, najwyraźniej nie powinniśmy być w stanie powiedzieć wiele, ale na szczęście nie żyjemy w świecie całkowicie losowych (lub przeciwnie wybranych ) funkcji.
Mówiąc bardziej ogólnie, skoro umieściłeś znacznik „filozoficzny” ... Chyba wkraczamy w sferę problemu indukcji lub nieuzasadnionej skuteczności matematyki w naukach statystycznych (w szczególności naszej intuicji matematycznej i umiejętności określania modeli które działają w praktyce) - w tym sensie, że z czysto apriorycznego punktu widzenia nie ma powodu, dla którego nasze domysły powinny być dobre lub mieć jakąkolwiek gwarancję (i na pewno można zbudować matematyczne kontrprzykłady, w których wszystko idzie nie tak), ale odwracają się pracować dobrze w praktyce.
źródło
Widzę to tylko dzisiaj, ale myślę, że powinienem się pochylić, biorąc pod uwagę, że jestem rodzajem eksperta i że co najmniej dwie odpowiedzi (nr 3 i 20 (dzięki za odniesienie do mojej pracy Xi'an!)) Wspominają o mojej pracy nad SafeBayes - w szczególności G. i van Ommen, „Niespójność wnioskowania bayesowskiego dla źle określonych modeli liniowych oraz propozycja naprawy” (2014). Chciałbym również dodać coś do komentarza 2:
2 mówi: (zaletą Bayesa przy błędnym określeniu jest ...) „Cóż, Bayesian podchodzi do regularyzacji. Jest to coś, co pomaga w zapobieganiu nadmiernemu dopasowaniu - niezależnie od tego, czy Twój model jest źle określony. Oczywiście, to tylko prowadzi do powiązanego pytania o argumenty za wnioskowaniem bayesowskim przeciwko znormalizowanym metodom klasycznym (lasso itp.) ”
To prawda, ale należy dodać, że podejścia bayesowskie mogą nie być wystarczająco regularyzowane jeśli model jest zły. To jest główny punkt pracy z Van Ommenem - widzimy tam, że standardowe Bayesa dość okropnie pasują w pewnym kontekście regresji z niewłaściwymi, ale bardzo przydatnymi modelami. Nie tak zły jak MLE, ale wciąż o wiele za dużo, aby był użyteczny. W teoretycznym uczeniu maszynowym (częstym i teorii gier) jest cały szereg prac, w których wykorzystują metody podobne do Bayesa, ale o znacznie mniejszym „współczynniku uczenia się” - co czyni wcześniejsze i dane mniej ważnymi, a tym samym bardziej reguluje. Metody te zostały zaprojektowane tak, aby działały dobrze w najgorszych przypadkach (błędne sprecyzowanie, a nawet gorzej, dane kontradyktoryjne) - podejście SafeBayes ma za zadanie „nauczyć się optymalnej szybkości uczenia się” na podstawie samych danych - i tej optymalnej częstotliwości uczenia się, tj. Optymalnej ilości regularyzacji,
W związku z tym istnieje twierdzenie ludowe (wspomniane przez kilka powyżej), że Bayes będzie miał skupić się na rozkładzie najbliższym rozbieżności KL w „prawdzie”. Ale dotyczy to tylko bardzo rygorystycznych warunków - DUŻO bardziej rygorystycznych niż warunki potrzebne do zbieżności w ściśle określonym przypadku. Jeśli masz do czynienia ze standardowymi małymi wymiarowymi modelami parametrycznymi, a dane są wyświetlane zgodnie z pewnym rozkładem (nie w modelu), wtedy tylny rzeczywiście skoncentruje się wokół punktu w modelu, który jest najbliższy prawdy w rozbieżności KL. Teraz, jeśli masz do czynienia z dużymi modelami nieparametrycznymi, a model jest poprawny, wtedy (zasadniczo) twój tył będzie nadal koncentrować się wokół prawdziwego rozkładu przy wystarczającej ilości danych, tak długo, jak twój poprzednik umieszcza wystarczającą masę w małych kulkach KL wokół prawdziwego rozkładu. To jestsłaby warunek wymagany do zbieżności w przypadku nieparametrycznym, jeśli model jest poprawny.
Ale jeśli twój model jest nieparametryczny, ale niepoprawny, wtedy tylny może po prostu nie koncentrować się wokół najbliższego punktu KL, nawet jeśli twój poprzedni umieszcza tam masę w pobliżu 1 (!) - twój tylny może pozostać zagubiony na zawsze, koncentrując się na zawsze różnych rozkładach w miarę upływu czasu, ale nigdy nie w pobliżu najlepszego. W moich pracach mam kilka przykładów tego, co się dzieje. Dokumenty, które wykazują zbieżność przy błędnym określeniu (np. Kleijn i van der Vaart), wymagają wielu dodatkowych warunków, np. Model musi być wypukły lub wcześniejsze muszą spełniać pewne (skomplikowane) właściwości. To właśnie rozumiem przez „surowe” warunki.
W praktyce często mamy do czynienia z parametrycznymi, ale bardzo wysokowymiarowymi modelami (pomyślmy o regresji bayesowskiej itp.). Wtedy, jeśli model jest zły, ostatecznie twój tylny skoncentruje się na najlepszym rozkładzie KL w modelu, ale nadal utrzymuje się mini-wersja niesparametrycznej niespójności: może zajść rzędy wielkości więcej danych, zanim nastąpi konwergencja - znowu, mój artykuł z Van Ommen podaje przykłady.
Podejście SafeBayes modyfikuje standardowe pola w sposób gwarantujący zbieżność w modelach nieparametrycznych w (zasadniczo) takich samych warunkach jak w ściśle określonym przypadku, tj. Wystarczająca masa przednia w pobliżu rozkładu optymalnego KL w modelu (G. i Mehta, 2014 ).
Następnie pojawia się pytanie, czy Bayes ma nawet uzasadnienie z powodu błędnej specyfikacji. IMHO (i jak wspomniano również kilka osób powyżej), standardowe uzasadnienia Bayesa (dopuszczalność, Savage, De Finetti, Cox itp.) Nie obowiązują tutaj (ponieważ jeśli zdasz sobie sprawę, że twój model jest źle określony, twoje prawdopodobieństwa nie odzwierciedlają twoich prawdziwych przekonań !). JEDNAK wiele metod Bayesa można również interpretować jako metody „minimalnej długości opisu (MDL)” - MDL jest metodą teoretyczną, która utożsamia „uczenie się z danych” z „próbą jak największej kompresji danych”. Ta interpretacja kompresji danych (niektórych) metod bayesowskich pozostaje ważna przy błędnym określeniu. Więc jest jeszcze trochęinterpretacja leżąca u podstaw błędnej specyfikacji - niemniej jednak istnieją problemy, jak pokazują moje prace z vanem Ommenem (oraz problem z przedziałem ufności / wiarygodnym zestawem wspomniany w oryginalnym poście).
A potem ostatnia uwaga na temat oryginalnego postu: wspominasz o „dopuszczalności” uzasadnienia Bayesa (wracając do pełnej klasy Walda z lat 40. / 50.). To, czy jest to naprawdę uzasadnienie Bayesa, zależy w dużej mierze od precyzyjnej definicji „wnioskowania bayesowskiego” (która różni się od badacza do badacza ...). Powodem jest to, że te wyniki dopuszczalności dopuszczają możliwość zastosowania uprzedniego, który zależy od aspektów problemu, takich jak wielkość próby i interesująca funkcja utraty itp. Większość „prawdziwych” Bayesianów nie chciałaby zmienić swojego wcześniejszego, gdyby ilość dane muszą przetwarzać zmiany lub jeśli funkcja utraty interesu zostanie nagle zmieniona. Na przykład przy ściśle wypukłych funkcjach utraty, estymatory minimax są również dopuszczalne - choć zwykle nie są uważane za bayesowskie! Powodem jest to, że dla każdej ustalonej wielkości próbki są one równoważne Bayesowi z określonym uprzednim, ale wcześniejszy jest inny dla każdej wielkości próbki.
Mam nadzieję, że to się przyda!
źródło
Istnieje zwykle kompromis wariancji odchylenia. Wnioskowanie bayesowskie przy założeniu przypadku M-zamkniętego [1,2] ma mniejszą wariancję [3], ale w przypadku błędnej specyfikacji modelu tendencyjność rośnie szybciej [4]. Możliwe jest również wnioskowanie bayesowskie, zakładając przypadek M-otwarty [1,2], który ma większą wariancję [3], ale w przypadku błędnej specyfikacji modelu odchylenie jest mniejsze [4]. Dyskusje na temat kompromisu wariancji uprzedzeń między Bayesowskimi M-zamkniętymi i M-otwartymi przypadkami pojawiają się również w niektórych odnośnikach zawartych w odnośnikach poniżej, ale wyraźnie potrzeba więcej.
[1] Bernardo i Smith (1994). Teoria bayesowska. John Wiley \ & Sons.
[2] Vehtari i Ojanen (2012). Przegląd bayesowskich metod predykcyjnych do oceny, wyboru i porównania modeli. Ankiety statystyczne, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Juho Piironen i Aki Vehtari (2017). Porównanie bayesowskich metod predykcyjnych do wyboru modelu. Statystyka i informatyka, 27 (3): 711–735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Yao, Vehtari, Simpson i Andrew Gelman (2017). Używanie stosu do średnich rozkładów predykcyjnych bayesowskich. prefiks arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030
źródło
Oto kilka innych sposobów uzasadnienia wnioskowania bayesowskiego w błędnie określonych modelach.
Możesz skonstruować przedział ufności dla średniej tylnej, używając formuły kanapkowej (w taki sam sposób, jak zrobiłbyś z MLE). Tak więc, mimo że wiarygodne zestawy nie mają zasięgu, nadal możesz tworzyć prawidłowe przedziały ufności w estymatorach punktów, jeśli to Cię interesuje.
Możesz przeskalować rozkład tylny, aby upewnić się, że wiarygodne zestawy mają zasięg, co jest podejściem przyjętym w:
Müller, Ulrich K. „Ryzyko wnioskowania bayesowskiego w błędnie określonych modelach i macierzy kowariancji kanapkowej”. Econometrica 81.5 (2013): 1805–1849.
źródło
Innymi słowy, jeśli twoje sformułowanie problemu jest niedokładne - jeśli twój model jest nieprawidłowy, statystyki bayesowskie mogą pomóc ci dowiedzieć się, że tak jest i pomóc w znalezieniu tego, który aspekt modelu jest źródłem problemu.
W praktyce może nie być całkiem jasne, jaka wiedza jest istotna i czy należy ją uwzględnić w derywatyzacji. Różne techniki sprawdzania modelu (rozdziały 6 i 7 w Gelman i in., 2013, zapewniają przegląd) są następnie wykorzystywane do znalezienia i zidentyfikowania niedokładnego sformułowania problemu.
Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A., i Rubin, DB (2013). Analiza danych bayesowskich, wydanie trzecie. Chapman & Hall / CRC.
Jaynes, ET (2003). Teoria prawdopodobieństwa: logika nauki. Prasa uniwersytecka z Cambridge.
źródło
MLE jest nadal estymatorem parametru w określonym modelu i zakłada się, że jest poprawny. Współczynniki regresji w częstym OLS można oszacować za pomocą MLE, a wszystkie właściwości, które chcesz do niego przypisać (obiektywne, konkretna wariancja asymptotyczna) nadal zakładają, że twój bardzo specyficzny model liniowy jest poprawny.
Idę o krok dalej i mówię, że za każdym razem, gdy chcesz przypisać estymatorowi znaczenie i właściwości, musisz założyć model. Nawet jeśli weźmiesz prosty przykładowy środek, zakładasz, że dane są wymienne i często IID.
Teraz estymatory bayesowskie mają wiele pożądanych właściwości, których MLE może nie mieć. Na przykład częściowe łączenie, regularyzacja i interpretowalność tylnej części ciała, co czyni ją pożądaną w wielu sytuacjach.
źródło
Polecam filozofię Gelmana i Shaliziego oraz praktykę statystyki bayesowskiej . Mają spójne, szczegółowe i praktyczne odpowiedzi na te pytania.
źródło
źródło
Jak zdefiniujesz, co to jest „źle określony” model? Czy to oznacza, że model ...
Jeśli pomyślisz o tym, w jaki sposób dany model może być źle określony, będziesz zasadniczo wyciągał informacje o tym, jak stworzyć lepszy model. Dodaj te dodatkowe informacje do swojego modelu!
Jeśli pomyślisz o tym, czym jest „model” w ramach bayesowskich, zawsze możesz stworzyć model, którego nie da się źle określić. Jednym ze sposobów jest dodanie większej liczby parametrów do bieżącego modelu. Dodając więcej parametrów, uczynisz swój model bardziej elastycznym i elastycznym. Metody uczenia maszynowego w pełni wykorzystują ten pomysł. To leży u podstaw takich rzeczy, jak „sieci przyrodnicze” i „drzewa regresji”. Musisz jednak pomyśleć o priors (podobnie jak regularyzacja dla ML).
źródło