Niedawno obejrzałem tę rozmowę Erica J. Ma i sprawdziłem jego wpis na blogu , w którym cytuje Radforda Neala, że modele bayesowskie nie pasują (ale mogą się przewyższać ), a podczas ich używania nie potrzebujemy zestawów testowych do ich weryfikacji (dla wydaje mi się, że cytaty mówią raczej o użyciu zestawu walidacyjnego do dostosowania parametrów). Szczerze mówiąc, te argumenty mnie nie przekonują, a ja nie mam dostępu do książki, więc czy mógłbyś podać bardziej szczegółowy i rygorystyczny argument za, czy przeciw takiemu stwierdzeniu?
Nawiasem mówiąc, tymczasem Eric Ma wskazał mi tę dyskusję na ten sam temat.
Odpowiedzi:
Jeśli użyjemy „jedynego prawdziwego modelu” i „prawdziwych priorytetów” odzwierciedlających niektóre odpowiednio uchwycone wcześniejsze informacje, to o ile wiem, Bayesian naprawdę nie ma problemu nadmiernego dopasowania, a ten rozkład predykcyjny z tyłu przy bardzo małej ilości danych będzie odpowiednio niepewny . Jeśli jednak użyjemy jakiegoś pragmatycznie wybranego modelu (tj. Zdecydowaliśmy, że np. Współczynnik ryzyka jest stały w czasie i model wykładniczy jest odpowiedni lub np. Że pewna zmienna towarzysząca nie występuje w modelu = punkt przed współczynnikiem zero) z pewnymi domyślnie nieinformacyjne lub regulujące priory, to tak naprawdę nie wiemy, czy to nadal obowiązuje. W takim przypadku wybór (hiper-) priorów ma pewną arbitralność, która może, ale nie musi, skutkować dobrymi prognozami na podstawie próby.
Dlatego bardzo rozsądne jest zadanie pytania, czy wybór hiperparametrów (= parametry hiperpriorów) w połączeniu z wybranym prawdopodobieństwem będzie działał dobrze. W rzeczywistości możesz łatwo zdecydować, że dobrym pomysłem jest dostrojenie hiperparametrów, aby uzyskać pożądaną wydajność prognozowania. Z tej perspektywy zestaw walidacyjny (lub walidacja krzyżowa) dostrajania hiperparametrów i zestaw testowy do potwierdzania wydajności ma sens.
Myślę, że jest to ściśle związane z szeregiem dyskusji Andrew Gelmana na jego blogu (patrz np. Wpis na blogu 1 , wpis na blogu 2 , wpis na blogu 3 w LOO for Stan i dyskusje na temat kontroli predykcyjnych w późniejszym okresie), gdzie omawia on swoje obawy wokół (w pewnym sensie poprawne) twierdzi, że Bayesian nie powinien sprawdzać, czy jego model ma sens i czy dotyczy praktycznej oceny modelu Bayesian.
Oczywiście bardzo często jesteśmy najbardziej zainteresowani wykorzystaniem metod bayesowskich w ustawieniach, w których niewiele jest wcześniejszych informacji i chcemy użyć nieco pouczających priorytetów. W tym momencie może być nieco trudniej mieć wystarczającą ilość danych, aby uzyskać dostęp do dowolnego miejsca z weryfikacją i oceną zestawu testowego.
źródło
Odpowiedziałem więc na pytanie dotyczące nadmiernego dopasowania, o którym wspomniałeś, obejrzałem wideo i przeczytałem post na blogu. Radford Neal nie twierdzi, że modele bayesowskie nie pasują do siebie. Pamiętajmy, że nadmierne dopasowanie to zjawisko, w którym szum jest traktowany jako sygnał i uwięziony w oszacowaniu parametru. To nie jest jedyne źródło błędu wyboru modelu. Dyskusja Neala jest jednak szersza, ponieważ odważa się na pomysł małej liczebności próby, którą podjął w dyskusji na temat nadmiernego dopasowania.
Pozwól mi częściowo zrewidować mój poprzedni post, że modele Bayesa mogą pasować do wszystkich modeli Bayesa, ale robię to w sposób, który poprawia przewidywanie. Ponownie, powrót do definicji mylenia sygnału z szumem, niepewność w metodach bayesowskich, rozkład a posteriori, jest kwantyfikacją tej niepewności co do tego, co jest sygnałem, a co szumem. W ten sposób metody bayesowskie przekształcają hałas w oszacowanie sygnału, ponieważ do wnioskowania i przewidywania wykorzystywany jest cały tył. Nadmierne dopasowanie i inne źródła błędu klasyfikacji modelu to inny rodzaj problemu w metodach bayesowskich.
Aby uprościć, przyjmijmy strukturę mówienia Ma i skupmy się na regresji liniowej i unikajmy dyskusji na temat głębokiego uczenia się, ponieważ, jak zauważa, alternatywne metody, o których wspomina, są tylko kompozycjami funkcji i istnieje bezpośredni związek między logiką liniowości regresja i głębokie uczenie się.
Rozważ następujący potencjalny model
W tej dyskusji musimy utworzyć osiem dodatkowych parametrów, po jednym dla każdego modelu. Oni sąm1…8 . Podążają one za rozkładem wielomianowym i mają odpowiednie priorytety, podobnie jak współczynniki regresji. Osiem modeli to
Teraz musimy zająć się różnicami między metodami bayesowskimi i częstymi. W zestawie treningowymn1, modelarz wykorzystujący metody Frequentist wybiera tylko jeden model. Modelarz wykorzystujący metody bayesowskie nie jest tak ograniczony. Chociaż modelista bayesowski mógłby użyć kryterium wyboru modelu, aby znaleźć tylko jeden model, mogą również stosować uśrednianie modelu. Modeler bayesowski może również swobodnie zmieniać wybrane modele w środkowej fazie segmentu walidacyjnego. Moreso, modelarz wykorzystujący metody bayesowskie może łączyć i dobierać między wyborem a uśrednianiem.
Aby dać prawdziwy przykład, przetestowałem 78 modeli bankructwa. Spośród 78 modeli łączne prawdopodobieństwo 76 z nich stanowiło około jednej dziesiątej tysięcznej jednego procenta. Pozostałe dwa modele miały odpowiednio około 54 procent i 46 procent. Na szczęście nie podzielili również żadnych zmiennych. To pozwoliło mi wybrać oba modele i zignorować pozostałe 76. Kiedy miałem wszystkie punkty danych dla obu, uśredniłem ich przewidywania na podstawie prawdopodobieństw późniejszych dwóch modeli, używając tylko jednego modelu, gdy brakowało punktów danych, co wykluczało inny. Chociaż miałem zestaw treningowy i zestaw walidacyjny, to nie z tego samego powodu, dla którego częsty je miał. Ponadto pod koniec każdego dnia w ciągu dwóch cykli biznesowych zaktualizowałem moje plakaty z danymi każdego dnia. Oznaczało to, że mój model na końcu zestawu walidacyjnego nie był modelem na końcu zestawu szkoleniowego. Modele Bayesa nie przestają się uczyć, podczas gdy modele Frequentist.
Sięgnijmy głębiej, zdobądźmy beton dzięki naszym modelom. Załóżmy, że podczas próby treningowej najlepiej pasował model Frequentist i model Bayesa z wykorzystaniem wyboru modelu lub, alternatywnie, że waga modelu w uśrednianiu modelu była tak duża, że była prawie nie do odróżnienia od modelu Frequentist. Wyobrażamy sobie ten model
Rozważmy teraz różnicę w zestawie sprawdzania poprawności. Model Frequentist jest zbyt dopasowany do danych. Załóżmy, że w pewnym momencienja2) procedura wyboru lub walidacji modelu zmieniła wybór z natury na prawdziwy model. Ponadto, jeśli zastosowano uśrednianie modelu, wówczas prawdziwy model w naturze miał ciężar w przewidywaniu na długo przed wyborem modeli. ET Jaynes w swoim tomie na temat teorii prawdopodobieństwa poświęca trochę czasu na omawianie tego zagadnienia. Mam książkę w pracy, więc nie mogę dać ci dobrego cytatu, ale powinieneś ją przeczytać. Jego numer ISBN to 978-0521592710.
Modele są parametrami w myśleniu bayesowskim i jako takie są losowe lub, jeśli wolisz, niepewne. Ta niepewność nie kończy się podczas procesu walidacji. Jest stale aktualizowany.
Ze względu na różnice między metodami bayesowskimi i częstymi, istnieją inne rodzaje przypadków, które również należy wziąć pod uwagę. Pierwszy pochodzi z wnioskowania o parametrach, drugi z formalnych prognoz. Nie są tym samym w metodach bayesowskich. Metody bayesowskie formalnie oddzielają wnioskowanie i podejmowanie decyzji. Oddzielają także szacowanie i prognozowanie parametrów.
Wyobraźmy sobie, bez utraty ogólności, że model odniósłby sukces, gdybyσ2)^< k aw przeciwnym razie niepowodzenie. Zignorujemy pozostałe parametry, ponieważ wypracowanie prostego pomysłu wymagałoby dodatkowej pracy. Dla modelarza stosującego metody bayesowskie jest to zupełnie inny typ pytania niż ten, który stosuje metody częstościowe.
Dla Frequentist tworzony jest test hipotez oparty na zestawie treningowym. Modeler używający metod Frequentist sprawdziłby, czy oszacowana wariancja jest większa, czy równak i spróbuj odrzucić wartość null dla próbki o rozmiarze n2) ustawiając parametry na te odkryte w n1 .
W przypadku modelarza stosującego metody bayesowskie tworzyliby oszacowania parametrów podczas próbyn1 i tylna gęstość n1 stałby się priorytetem dla próbki n2) . Zakładając, że właściwość wymienności jest zachowana, wówczas zapewnione jest, że oszacowanie z tyłun2) jest równy pod każdym względem słowem szacunku prawdopodobieństwa utworzonego ze wspólnej próbki. Podział ich na dwie próbki jest równoznaczny z siłą matematyki z tym, że wcale ich nie podzielił.
W przypadku prognoz istnieje podobny problem. Metody bayesowskie mają rozkład predykcyjny, który jest również aktualizowany przy każdej obserwacji, podczas gdy metoda częstokroć jest zamrożona na końcu próbkin1 . Gęstość predykcyjna może być zapisana jakoPr (x~= k | X ) . Gdybyx~ jest prognoza i X jest próbką, a następnie gdzie są parametry, które oznaczymy θ ? Chociaż istnieją systemy predykcji częstokroć, większość ludzi po prostu traktuje oszacowania punktowe jako prawdziwe parametry i oblicza resztki. Metody bayesowskie oceniałyby każdą prognozę na podstawie przewidywanej gęstości, a nie tylko jednego punktu. Prognozy te nie zależą od parametrów, które różnią się od metod punktowych stosowanych w rozwiązaniach Frequentist.
Na marginesie, formalne gęstości predykcyjne częstościści istnieją przy użyciu standardowych błędów i można by na nich dokonać punktacji, ale w praktyce jest to rzadkie. Jeśli nie ma konkretnej wcześniejszej wiedzy, dwa zestawy prognoz powinny być identyczne dla tego samego zestawu punktów danych. Skończy się inaczej, ponieważn1+n2)>n1 dlatego rozwiązanie bayesowskie zgromadzi więcej informacji.
Jeśli nie ma żadnych istotnych wcześniejszych informacji i jeżeli zamiast szacunków punktowych stosowane są gęstości predykcyjne częstościsty, to dla stałej próbki wyniki metod bayesowskich i częstościowych będą identyczne, jeśli zostanie wybrany jeden model. Jeśli są wcześniejsze informacje, metoda bayesowska będzie generować dokładniejsze prognozy. Różnica ta może być bardzo duża w praktyce. Ponadto, jeśli istnieje uśrednianie modelu, jest całkiem prawdopodobne, że metoda bayesowska będzie bardziej niezawodna. Jeśli użyjesz wyboru modelu i zamrozisz prognozy bayesowskie, nie ma różnicy w stosowaniu modelu częstego korzystania z predykcji częstych.
Użyłem zestawu testowego i walidacyjnego, ponieważ moich danych nie można było wymienić. W rezultacie musiałem rozwiązać dwa problemy. Pierwszy jest podobny do wypalania w metodach MCMC. Potrzebowałem dobrego zestawu oszacowań parametrów, aby rozpocząć sekwencję testową, więc wykorzystałem pięćdziesiąt lat wcześniejszych danych, aby uzyskać dobrą gęstość wcześniejszą, aby rozpocząć test sprawdzania poprawności. Drugi problem polegał na tym, że potrzebowałem pewnej formy znormalizowanego okresu do przetestowania, aby test nie był kwestionowany. Użyłem dwóch poprzednich cykli biznesowych datowanych przez NBER.
źródło