Z tego, co przeczytałem i od odpowiedzi na inne pytania , które tu zadałem, wiele tak zwanych metod częstokroć odpowiada matematycznie ( nie dbam o to, czy odpowiadają filozoficznie , dbam tylko o to, czy odpowiada matematycznie) szczególnym przypadkom tzw. Metody bayesowskie (dla tych, którzy sprzeciwiają się temu, patrz uwaga na końcu tego pytania). Ta odpowiedź na powiązane pytanie (nie moje) potwierdza ten wniosek:
Większość metod częstokrzyskich ma odpowiednik bayesowski, który w większości przypadków daje zasadniczo ten sam wynik.
Zauważ, że w dalszej części bycie matematycznie tym samym oznacza dawanie tego samego rezultatu. Jeśli scharakteryzujesz dwie metody, które można udowodnić, że zawsze dają takie same wyniki, jak bycie „innym”, masz rację, ale jest to filozoficzny osąd, nie matematyczny ani praktyczny.
Jednak wiele osób, które opisują siebie samych jako „bayesowskie”, wydaje się odrzucać przy użyciu oszacowania maksymalnego prawdopodobieństwa w każdych okolicznościach, nawet jeśli jest to szczególny przypadek ( matematycznie ) metod bayesowskich, ponieważ jest to „metoda częstokroć”. Najwyraźniej Bayesianie stosują również ograniczoną / ograniczoną liczbę rozkładów w porównaniu z częstymi, chociaż te rozkłady byłyby również matematycznie poprawne z punktu widzenia bayesowskiego.
Pytanie: Kiedy i dlaczego Bayesianie odrzucają metody, które są matematycznie poprawne z punktu widzenia Bayesa? Czy jest jakieś uzasadnienie tego, co nie jest „filozoficzne”?
Tło / Kontekst: Oto cytaty z odpowiedzi i komentarzy do mojego poprzedniego pytania na CrossValidated :
Podstawa matematyczna debaty bayesowskiej i częstej jest bardzo prosta. W statystyce bayesowskiej nieznany parametr jest traktowany jako zmienna losowa; w statystykach częstych jest to traktowane jako element stały ...
Z powyższego wywnioskowałbym, że ( matematycznie ) metody bayesowskie są bardziej ogólne niż częste, w tym sensie, że modele częsteściowe spełniają wszystkie te same założenia matematyczne co Bayesowskie, ale nie odwrotnie. Jednak ta sama odpowiedź argumentowała, że mój wniosek z powyższego był niepoprawny (podkreślenie poniżej):
Chociaż stała jest szczególnym przypadkiem zmiennej losowej, wahałbym się stwierdzić, że bayesianizm jest bardziej ogólny. Nie uzyskałbyś wyników częstych od wyników bayesowskich, po prostu zwijając zmienną losową do stałej. Różnica jest głębsza ...
Przechodząc do osobistych preferencji ... Nie podoba mi się, że statystyki bayesowskie wykorzystują dość ograniczony podzbiór dostępnych dystrybucji.
Inny użytkownik w swojej odpowiedzi stwierdził przeciwnie, że metody bayesowskie są bardziej ogólne, chociaż co dziwne, najlepszym powodem, dla którego mogłem znaleźć powód, był poprzednia odpowiedź, podana przez kogoś przeszkolonego jako częsty.
Konsekwencją matematyczną jest to, że częstokroć uważają, że podstawowe równania prawdopodobieństwa mają zastosowanie tylko czasami, a Bayesianie uważają, że zawsze się odnoszą. Uważają więc te same równania za poprawne, ale różnią się tym, jak ogólne są ... Bayesian jest bardziej ogólny niż Frequentist. Ponieważ każdy fakt może być niepewny, każdemu faktowi można przypisać prawdopodobieństwo. W szczególności, jeśli fakty, nad którymi pracujesz, są związane z częstotliwościami w świecie rzeczywistym (albo jako coś, co przewidujesz, albo jako część danych), wówczas metody bayesowskie mogą je rozważyć i wykorzystać tak, jak w przypadku innych faktów z prawdziwego świata. W związku z tym każdy problem, który często uważają, że ich metody mają zastosowanie do Bayesianów, może również działać w sposób naturalny.
Z powyższych odpowiedzi mam wrażenie, że powszechnie stosuje się co najmniej dwie różne definicje terminu Bayesian. Pierwszy nazwałbym „matematycznie bayesowskim”, który obejmuje wszystkie metody statystyki, ponieważ obejmuje parametry, które są stałymi RV i te, które nie są stałymi RV. Następnie istnieje „kulturowo bayesowski”, który odrzuca niektóre „matematycznie bayesowskie” metody, ponieważ metody te są „częste” (tj. Z osobistej niechęci do parametru, który czasami jest modelowany jako stała lub częstotliwość). Inna odpowiedź na powyższe pytanie wydaje się również potwierdzać tę hipotezę:
Należy również zauważyć, że istnieje wiele różnic między modelami używanymi przez dwa obozy, które są bardziej związane z tym, co zostało zrobione, niż z tym, co można zrobić (tj. Wiele modeli tradycyjnie używanych przez jeden obóz może być uzasadnione przez drugi obóz ).
Sądzę więc, że innym sposobem sformułowania mojego pytania byłoby: Dlaczego kulturowi Bayesianie nazywają siebie Bayesianami, skoro odrzucają wiele matematycznie bayesowskich metod? I dlaczego odrzucają te matematycznie bayesowskie metody? Czy jest to osobista wrogość dla osób, które najczęściej używają tych konkretnych metod?
Edycja: Dwa obiekty są równoważne w sensie matematycznym, jeśli mają te same właściwości , niezależnie od ich budowy. Mogę na przykład wymyślić co najmniej pięć różnych sposobów budowy urojonej jednostki . Niemniej jednak nie ma co najmniej pięciu różnych „szkół myślenia” dotyczących badania liczb urojonych; w rzeczywistości uważam, że istnieje tylko jedna, czyli grupa badająca ich właściwości. Tym, którzy sprzeciwiają się uzyskaniu oszacowania punktu przy użyciu maksymalnego prawdopodobieństwa, nie jest tym samym, co uzyskanie oszacowania punktu przy użyciu maksimum a priori i jednolitego przejęcia z uwagi na różne obliczenia, przyznaję, że różnią się w sensie filozoficznym , ale zakres, w jakim zawszepodać te same wartości dla oszacowania, są one matematycznie równoważne, ponieważ mają te same właściwości . Być może różnica filozoficzna dotyczy ciebie osobiście, ale nie ma związku z tym pytaniem.
Uwaga: To pytanie pierwotnie miało nieprawidłową charakterystykę oszacowania MLE i oszacowania MAP z jednolitym uprzednim.
źródło
Odpowiedzi:
Chciałbym skorygować błędne założenie w oryginalnym poście, błąd, który jest stosunkowo częsty. PO mówi:
A notatka na dole posta mówi:
Moje zastrzeżenie polega na tym, że oprócz filozofii, oszacowania maksymalnego prawdopodobieństwa (MLE) i oszacowania maksymalnego a posteriori (MAP) nie mają tych samych właściwości matematycznych.
Co najważniejsze, MLE i MAP przekształcają się inaczej w (nieliniowej) reparametryzacji przestrzeni. Dzieje się tak, ponieważ MLE ma „płaską wcześniejszą” w każdej parametryzacji, podczas gdy MAP nie ma (wcześniejsza transformacja jest gęstością prawdopodobieństwa , więc istnieje termin jakobski).
Definicja obiektu matematycznego obejmuje zachowanie obiektu pod operatorami, takie jak transformacja zmiennych (np. Patrz definicja tensor ).
Podsumowując, MLE i MAP to nie to samo, ani filozoficznie, ani matematycznie; to nie jest opinia.
źródło
Osobiście jestem „pragmatykiem”, a nie „częstym” lub „bayesowskim”, więc nie mogę twierdzić, że przemawiam za obozem.
To powiedziawszy, myślę, że rozróżniasz, o którym wspominasz, prawdopodobnie nie tyle MLE w porównaniu z MAP, ale między szacunkami punktowymi a szacowaniem tylnych plików PDF . Jako naukowiec pracujący w dziedzinie z rzadkimi danymi i dużymi niepewnościami, mogę współczuć, nie chcąc pokładać zbyt dużej pewności w wynikach „najlepszego odgadnięcia”, które mogą wprowadzać w błąd, co prowadzi do zbytniej pewności siebie.
Powiązane praktyczne rozróżnienie między metodami parametrycznymi a nieparametrycznymi . Na przykład myślę, że zarówno filtrowanie Kalmana, jak i filtrowanie cząstek byłyby akceptowane jako rekursywna estymacja bayesowska . Ale Gaussowskie założenie filtrowania Kalmana (metoda parametryczna) może dawać bardzo mylące wyniki, jeśli tył nie jest jednomodalny. Dla mnie tego rodzaju przykłady inżynieryjne podkreślają, gdzie różnice nie są ani filozoficzne, ani matematyczne, ale przejawiają się pod względem praktycznych rezultatów (tj. Czy twój autonomiczny pojazd ulegnie awarii?). Dla entuzjastów bayesowskich, których znam, ta dominująca postawa „zobacz, co działa” wydaje się dominująca ... nie jestem pewien, czy jest to prawda w szerszym ujęciu.
źródło
Tacy ludzie odrzuciliby MLE jako ogólną metodę dokonywania szacunków punktowych. W szczególnych przypadkach, gdy mieli powód, aby użyć munduru wcześniej i chcieli maksymalnie oszacować a posteriori, wcale nie przeszkadzał im przypadek ich obliczeń z MLE.
Być może czasami, aby ułatwić ich obliczenia, ale nie z jakiegokolwiek punktu widzenia.
Z pewnością należy wprowadzić rozróżnienie między różnymi podejściami do wnioskowania bayesowskiego, ale nie tym. Jeśli istnieje poczucie, że Bayesianizm jest bardziej ogólny, polega on na chęci zastosowania pojęcia prawdopodobieństwa do epistemicznej niepewności co do wartości parametrów, a nie tylko niepewnej niepewności procesu generowania danych, który dotyczy wyłącznie częstotliwości. Wnioskowanie częstych nie jest szczególnym przypadkiem wnioskowania bayesowskiego i żadną z odpowiedzi ani komentarzy na stronie Czy istnieje jakaś matematyczna podstawa debaty bayesowskiej czy częstej?sugerują, że tak jest. Jeśli w podejściu bayesowskim miałbyś uznać parametr za stałą zmienną losową, uzyskałbyś ten sam a posterior niezależnie od tego, jakie są dane - i mówiąc, że jest stały, ale nie wiesz, jaką wartość przyjmuje, nie powiedziałby nic warto powiedzieć. Podejście częsterzy przyjmuje zupełnie inną przyczepność i wcale nie wymaga obliczania tylnych rozkładów.
źródło