Czy to prawda, że ​​metody bayesowskie nie pasują do siebie?

25

Czy to prawda, że ​​metody bayesowskie nie pasują do siebie? (Widziałem kilka artykułów i samouczków przedstawiających to twierdzenie)

Na przykład, jeśli zastosujemy Proces Gaussa do MNIST (odręczna klasyfikacja cyfr), ale pokażemy tylko jedną próbkę, czy powróci on do wcześniejszego rozkładu dla jakichkolwiek danych wejściowych innych niż ta pojedyncza próbka, jakkolwiek niewielka różnica?

MaxB
źródło
myślałam tylko - czy istnieje matematycznie precyzyjny sposób zdefiniowania „nadmiernego dopasowania”? jeśli możesz, prawdopodobnie możesz także wbudować funkcje w funkcję prawdopodobieństwa lub wcześniej, aby tego uniknąć. myślę, że to pojęcie brzmi podobnie do „wartości odstających”.
prawdopodobieństwo prawdopodobieństwa

Odpowiedzi:

25

Nie, to nie prawda. Metody bayesowskie z pewnością przewyższą dane. Istnieje kilka rzeczy, które sprawiają, że metody bayesowskie są bardziej odporne na nadmierne dopasowanie, a także można uczynić je bardziej kruchymi.

Kombinatoryczny charakter hipotez bayesowskich zamiast hipotez binarnych pozwala na wielokrotne porównania, gdy komuś brakuje „prawdziwego” modelu dla metod hipotezy zerowej. Bayesian posterior skutecznie karze wzrost struktury modelu, taki jak dodawanie zmiennych, jednocześnie nagradzając poprawę dopasowania. Kary i zyski nie są optymalizacjami, jak w przypadku metod nie bayesowskich, ale przesunięciem prawdopodobieństwa w stosunku do nowych informacji.

Chociaż ogólnie daje to bardziej solidną metodologię, istnieje ważne ograniczenie, które polega na stosowaniu odpowiednich wcześniejszych dystrybucji. Chociaż istnieje tendencja do naśladowania metod często używanych przez płaskich priorów, nie zapewnia to właściwego rozwiązania. Istnieją artykuły na temat nadmiernego dopasowania metodami bayesowskimi i wydaje mi się, że grzech wydaje się polegać na próbie „uczciwości” wobec metod nie bayesowskich, zaczynając od ściśle płaskich przeorów. Trudność polega na tym, że przeor jest ważny w normalizacji prawdopodobieństwa.

Modele bayesowskie są modelami wewnętrznie optymalnymi w sensie dopuszczalności słowa Walda, ale jest tam ukryty straszydło. Wald zakłada, że ​​przeor jest twoim prawdziwym przeorem, a nie jakimś innym, którego używasz, aby redaktorzy nie przekręcali cię za umieszczanie w nim zbyt wielu informacji. Nie są optymalne w tym samym sensie, co modele Frequentist. Metody częstych rozpoczynają się od optymalizacji minimalizacji wariancji przy jednoczesnym zachowaniu obiektywności.

Jest to kosztowna optymalizacja, ponieważ odrzuca informacje i nie jest wewnętrznie dopuszczalna w sensie Walda, chociaż często jest dopuszczalna. Dlatego modele Frequentist zapewniają optymalne dopasowanie do danych, biorąc pod uwagę obiektywność. Modele bayesowskie nie są obiektywne ani optymalne do danych. Jest to transakcja, którą podejmujesz, aby zminimalizować nadmierne dopasowanie.

Modele bayesowskie są modelami wewnętrznie tendencyjnymi, chyba że zostaną podjęte specjalne kroki, aby uczynić je bezstronnymi, które zwykle są gorzej dopasowane do danych. Ich zaletą jest to, że nigdy nie używają mniej informacji niż alternatywna metoda do znalezienia „prawdziwego modelu”, a ta dodatkowa informacja sprawia, że ​​modele bayesowskie nigdy nie są mniej ryzykowne niż modele alternatywne, szczególnie przy pracy z próbą. To powiedziawszy, zawsze będzie istniała próbka, która mogłaby zostać losowo dobrana i która systematycznie „wprowadzałaby w błąd” metodę bayesowską.

Jeśli chodzi o drugą część pytania, jeśli przeanalizujesz pojedynczą próbkę, a posterior zostanie na zawsze zmieniony we wszystkich jego częściach i nie powróci do poprzedniej, chyba że będzie druga próbka, która dokładnie skasuje wszystkie informacje w pierwsza próbka. Przynajmniej teoretycznie jest to prawda. W praktyce, jeśli przeor jest wystarczająco informacyjny, a obserwacja wystarczająco nieinformacyjna, wówczas wpływ może być tak mały, że komputer nie mógłby zmierzyć różnic z powodu ograniczenia liczby cyfr znaczących. Możliwe, że efekt jest zbyt mały, aby komputer mógł przetworzyć zmianę w odcinku bocznym.

Tak więc odpowiedź brzmi „tak”, możesz dopasować próbkę za pomocą metody bayesowskiej, szczególnie jeśli masz małą próbkę i niewłaściwe priory. Druga odpowiedź brzmi „nie” twierdzenie Bayesa nigdy nie zapomina o wpływie wcześniejszych danych, chociaż efekt może być tak mały, że można go pominąć obliczeniowo.

Dave Harris
źródło
2
W Zaczynają od optymalizacji minimalizacji wariancji, pozostając jednocześnie bezstronnymi. Co to oni ?
Richard Hardy,
Tylko nieliczne modele (zasadniczo zbiór ze miarą zero) pozwalają na tworzenie obiektywnych estymatorów. Na przykład w normalnym modelu nie ma obiektywnego estymatora . Rzeczywiście, w większości przypadków, gdy maksymalizujemy prawdopodobieństwo, uzyskujemy tendencyjne oszacowanie. N(θ,σ2)σ
Andrew M
1
@AndrewM: Tam jest nieobciążonym estymatorem w normalnym modelu - stats.stackexchange.com/a/251128/17230 . σ
Scortchi - Przywróć Monikę
11

Należy pamiętać, że podobnie jak praktycznie wszędzie indziej znaczącym problemem w metodach bayesowskich może być błędna specyfikacja modelu.

To oczywisty punkt, ale pomyślałem, że nadal będę opowiadał historię.

Winieta z powrotem w undergrad ...

Klasycznym zastosowaniem bayesowskiego filtrowania cząstek jest śledzenie położenia robota poruszającego się po pokoju. Ruch zwiększa niepewność, a odczyty czujników zmniejszają niepewność.

Pamiętam, jak napisałem kilka procedur, aby to zrobić. Napisałem rozsądny, teoretycznie motywowany model prawdopodobieństwa zaobserwowania różnych odczytów sonaru, biorąc pod uwagę prawdziwe wartości. Wszystko zostało precyzyjnie wyprowadzone i pięknie zakodowane. Potem idę to przetestować ...

Co się stało? Całkowita porażka! Czemu? Mój filtr cząstek szybko pomyślał, że odczyty czujnika wyeliminowały prawie całą niepewność. Moja chmura punktów zapadła się do punktu, ale mój robot niekoniecznie był w tym momencie!

Zasadniczo moja funkcja prawdopodobieństwa była zła; moje odczyty czujnika nie były tak pouczające, jak myślałem. Byłem zbyt dobry. Rozwiązanie? Wmieszałem o tony więcej szumu gaussowskiego (w raczej doraźny sposób), chmura punktów przestała się zapadać, a następnie filtrowanie działało dość pięknie.

Morał?

Jak słynie Box, „wszystkie modele są błędne, ale niektóre są przydatne”. Niemal na pewno nie będziesz mieć funkcji prawdziwego prawdopodobieństwa, a jeśli będzie wystarczająco wyłączona, twoja metoda bayesowska może stać się okropnie nieudolna i przesadna.

Dodanie przeoratu nie rozwiązuje w magiczny sposób problemów wynikających z założenia, że ​​obserwacje są IID, gdy nie są, zakładając, że prawdopodobieństwo ma większą krzywiznę niż ma to miejsce itp.

Matthew Gunn
źródło
3
„Winieta z powrotem w licencjacie ... Klasycznym zastosowaniem bayesowskiego filtrowania cząstek jest śledzenie położenia robota poruszającego się po pokoju” ... zaraz, gdzie był twój student? :)
Cliff AB