Kiedy (i dlaczego) Bayesianie odrzucają prawidłowe metody bayesowskie? [Zamknięte]

9

Z tego, co przeczytałem i od odpowiedzi na inne pytania , które tu zadałem, wiele tak zwanych metod częstokroć odpowiada matematycznie ( nie dbam o to, czy odpowiadają filozoficznie , dbam tylko o to, czy odpowiada matematycznie) szczególnym przypadkom tzw. Metody bayesowskie (dla tych, którzy sprzeciwiają się temu, patrz uwaga na końcu tego pytania). Ta odpowiedź na powiązane pytanie (nie moje) potwierdza ten wniosek:

Większość metod częstokrzyskich ma odpowiednik bayesowski, który w większości przypadków daje zasadniczo ten sam wynik.

Zauważ, że w dalszej części bycie matematycznie tym samym oznacza dawanie tego samego rezultatu. Jeśli scharakteryzujesz dwie metody, które można udowodnić, że zawsze dają takie same wyniki, jak bycie „innym”, masz rację, ale jest to filozoficzny osąd, nie matematyczny ani praktyczny.

Jednak wiele osób, które opisują siebie samych jako „bayesowskie”, wydaje się odrzucać przy użyciu oszacowania maksymalnego prawdopodobieństwa w każdych okolicznościach, nawet jeśli jest to szczególny przypadek ( matematycznie ) metod bayesowskich, ponieważ jest to „metoda częstokroć”. Najwyraźniej Bayesianie stosują również ograniczoną / ograniczoną liczbę rozkładów w porównaniu z częstymi, chociaż te rozkłady byłyby również matematycznie poprawne z punktu widzenia bayesowskiego.

Pytanie: Kiedy i dlaczego Bayesianie odrzucają metody, które są matematycznie poprawne z punktu widzenia Bayesa? Czy jest jakieś uzasadnienie tego, co nie jest „filozoficzne”?

wprowadź opis zdjęcia tutaj

Tło / Kontekst: Oto cytaty z odpowiedzi i komentarzy do mojego poprzedniego pytania na CrossValidated :

Podstawa matematyczna debaty bayesowskiej i częstej jest bardzo prosta. W statystyce bayesowskiej nieznany parametr jest traktowany jako zmienna losowa; w statystykach częstych jest to traktowane jako element stały ...

Z powyższego wywnioskowałbym, że ( matematycznie ) metody bayesowskie są bardziej ogólne niż częste, w tym sensie, że modele częsteściowe spełniają wszystkie te same założenia matematyczne co Bayesowskie, ale nie odwrotnie. Jednak ta sama odpowiedź argumentowała, że ​​mój wniosek z powyższego był niepoprawny (podkreślenie poniżej):

Chociaż stała jest szczególnym przypadkiem zmiennej losowej, wahałbym się stwierdzić, że bayesianizm jest bardziej ogólny. Nie uzyskałbyś wyników częstych od wyników bayesowskich, po prostu zwijając zmienną losową do stałej. Różnica jest głębsza ...

Przechodząc do osobistych preferencji ... Nie podoba mi się, że statystyki bayesowskie wykorzystują dość ograniczony podzbiór dostępnych dystrybucji.

Inny użytkownik w swojej odpowiedzi stwierdził przeciwnie, że metody bayesowskie bardziej ogólne, chociaż co dziwne, najlepszym powodem, dla którego mogłem znaleźć powód, był poprzednia odpowiedź, podana przez kogoś przeszkolonego jako częsty.

Konsekwencją matematyczną jest to, że częstokroć uważają, że podstawowe równania prawdopodobieństwa mają zastosowanie tylko czasami, a Bayesianie uważają, że zawsze się odnoszą. Uważają więc te same równania za poprawne, ale różnią się tym, jak ogólne są ... Bayesian jest bardziej ogólny niż Frequentist. Ponieważ każdy fakt może być niepewny, każdemu faktowi można przypisać prawdopodobieństwo. W szczególności, jeśli fakty, nad którymi pracujesz, są związane z częstotliwościami w świecie rzeczywistym (albo jako coś, co przewidujesz, albo jako część danych), wówczas metody bayesowskie mogą je rozważyć i wykorzystać tak, jak w przypadku innych faktów z prawdziwego świata. W związku z tym każdy problem, który często uważają, że ich metody mają zastosowanie do Bayesianów, może również działać w sposób naturalny.

Z powyższych odpowiedzi mam wrażenie, że powszechnie stosuje się co najmniej dwie różne definicje terminu Bayesian. Pierwszy nazwałbym „matematycznie bayesowskim”, który obejmuje wszystkie metody statystyki, ponieważ obejmuje parametry, które są stałymi RV i te, które nie są stałymi RV. Następnie istnieje „kulturowo bayesowski”, który odrzuca niektóre „matematycznie bayesowskie” metody, ponieważ metody te są „częste” (tj. Z osobistej niechęci do parametru, który czasami jest modelowany jako stała lub częstotliwość). Inna odpowiedź na powyższe pytanie wydaje się również potwierdzać tę hipotezę:

Należy również zauważyć, że istnieje wiele różnic między modelami używanymi przez dwa obozy, które są bardziej związane z tym, co zostało zrobione, niż z tym, co można zrobić (tj. Wiele modeli tradycyjnie używanych przez jeden obóz może być uzasadnione przez drugi obóz ).

Sądzę więc, że innym sposobem sformułowania mojego pytania byłoby: Dlaczego kulturowi Bayesianie nazywają siebie Bayesianami, skoro odrzucają wiele matematycznie bayesowskich metod? I dlaczego odrzucają te matematycznie bayesowskie metody? Czy jest to osobista wrogość dla osób, które najczęściej używają tych konkretnych metod?

Edycja: Dwa obiekty są równoważne w sensie matematycznym, jeśli mają te same właściwości , niezależnie od ich budowy. Mogę na przykład wymyślić co najmniej pięć różnych sposobów budowy urojonej jednostki . Niemniej jednak nie ma co najmniej pięciu różnych „szkół myślenia” dotyczących badania liczb urojonych; w rzeczywistości uważam, że istnieje tylko jedna, czyli grupa badająca ich właściwości. Tym, którzy sprzeciwiają się uzyskaniu oszacowania punktu przy użyciu maksymalnego prawdopodobieństwa, nie jest tym samym, co uzyskanie oszacowania punktu przy użyciu maksimum a priori i jednolitego przejęcia z uwagi na różne obliczenia, przyznaję, że różnią się w sensie filozoficznym , ale zakres, w jakim zawszeipodać te same wartości dla oszacowania, są one matematycznie równoważne, ponieważ mają te same właściwości . Być może różnica filozoficzna dotyczy ciebie osobiście, ale nie ma związku z tym pytaniem.

Uwaga: To pytanie pierwotnie miało nieprawidłową charakterystykę oszacowania MLE i oszacowania MAP z jednolitym uprzednim.

Chill2Macht
źródło
8
(-1) To pytanie opiera się na fałszywych założeniach. MLE nie odpowiada „stosowaniu munduru przed”, ale stosowaniu munduru przed i wybraniu trybu rozkładu tylnego (czyli MAP z mundurem przed). Kiedy używasz MLE, parametr nie jest uważany za zmienną losową, więc konstrukcje takie jak lub całki ponad są matematycznie nieistotne. Pr(θ[0,1]y)θy
Juho Kokkala,
3
Nie przypominam sobie żadnych Bayesian, którzy albo odrzucają wszystko, co nie jest Bayesowskie z nazwy, lub używają ograniczonej liczby dystrybucji. W swoim pytaniu można łatwo zastąpić „Bayesianów” „częstymi” i zapytać, dlaczego często odrzucają wszystko, co nie jest częste, i dlaczego używają ograniczonej liczby rozkładów (zasadniczo wszędzie rozkład normalny) - wynikałoby z tego pytanie tak samo źle zdefiniowane jak twoje. Zgadzam się również z @JuhoKokkala, że ​​MLE używa munduru wcześniej, mimo że ich oceny punktowe mogą się zgadzać .
Tim
5
MLE i MAP nie mają tych samych właściwości matematycznych. Jeśli ponownie sparametryzujesz zmienne, MLE i MAP przekształcają się inaczej (ponieważ MLE ma „płaską wcześniejszą” w każdej parametryzacji, MAP nie ma). Definicja obiektu matematycznego obejmuje zachowanie obiektu pod operatorami, takie jak transformacja zmiennych (np. Patrz definicja tensor). Więc to nie to samo.
lacerbi
2
Uczynię to (krótką) odpowiedzią, ponieważ zaskakujące jest to, że nikt do tej pory o tym nie wspominał. W przeszłości musiałem to wyjaśniać wiele razy, ponieważ jest to subtelność, której łatwo można przeoczyć.
lacerbi
4
Czy kiedykolwiek grałeś w warcaby z zestawem szachowym? Od czasu do czasu może się zdarzyć, że znajdziesz się w prawidłowej pozycji szachowej i możesz wykonać legalny ruch szachowy, który jest również legalnym ruchem selekcyjnym. Oczywiście to, co byłoby dobrym posunięciem szachowym, nie zawsze będzie dobrym posunięciem draftu. I nie unikniesz wykonania dobrego ruchu szkicowego tylko dlatego, że jest to również ruch szachowy. Różni się to raczej od opisywania gry w szachy po francusku niż po angielsku, lub od obracania planszy, aby czarne kwadraty stały się białe lub zamiana początkowych pozycji i zasad rządzących ...
Scortchi - Przywróć Monikę

Odpowiedzi:

12

Chciałbym skorygować błędne założenie w oryginalnym poście, błąd, który jest stosunkowo częsty. PO mówi:

Z tego, co przeczytałem i od odpowiedzi na inne pytania, które tu zadałem, oszacowanie maksymalnego prawdopodobieństwa odpowiada matematycznie (nie dbam o to, czy odpowiada filozoficznie, dbam tylko o to, czy odpowiada matematycznie) do maksymalnego oszacowania a priori przy użyciu jednolitego przeora ( dla tych, którzy sprzeciwiają się temu, patrz uwaga na dole tego pytania).

A notatka na dole posta mówi:

Dwa obiekty są równoważne w sensie matematycznym, jeśli mają te same właściwości, niezależnie od ich budowy. [...]

Moje zastrzeżenie polega na tym, że oprócz filozofii, oszacowania maksymalnego prawdopodobieństwa (MLE) i oszacowania maksymalnego a posteriori (MAP) nie mają tych samych właściwości matematycznych.

Co najważniejsze, MLE i MAP przekształcają się inaczej w (nieliniowej) reparametryzacji przestrzeni. Dzieje się tak, ponieważ MLE ma „płaską wcześniejszą” w każdej parametryzacji, podczas gdy MAP nie ma (wcześniejsza transformacja jest gęstością prawdopodobieństwa , więc istnieje termin jakobski).

Definicja obiektu matematycznego obejmuje zachowanie obiektu pod operatorami, takie jak transformacja zmiennych (np. Patrz definicja tensor ).

Podsumowując, MLE i MAP to nie to samo, ani filozoficznie, ani matematycznie; to nie jest opinia.

Lacerbi
źródło
Myślę, że chyba nie zrozumiałem twojego punktu. Czy można sparametryzować model, aby oszacowania punktowe z MLE nie były równe oszacowaniom z MAP z jednolitym wcześniejszym? (Oczywiście w przypadku MAP uprzednie musi być jednolite w odniesieniu do bieżącej parametryzacji, aby równość działała. Jeśli ponownie sparametryzujesz model bez zmiany wcześniejszego, to na ogół nie będzie już jednolity.)
Kodiolog,
1
@Kodiologist: OP stwierdził, że MAP i MLE są identycznymi „obiektami matematycznymi”. Oni nie są. Odrębne obiekty matematyczne mogą być równe w podprzestrzeni (np. W danej parametryzacji), ale to nie czyni ich identycznymi. Można powiedzieć „nie dbam o inne parametryzacje”, ale cóż, wtedy nakładasz silne praktyczne ograniczenia, nie jest to już „tylko” filozoficzny punkt, jak pierwotnie argumentował OP.
lacerbi
6

Osobiście jestem „pragmatykiem”, a nie „częstym” lub „bayesowskim”, więc nie mogę twierdzić, że przemawiam za obozem.

To powiedziawszy, myślę, że rozróżniasz, o którym wspominasz, prawdopodobnie nie tyle MLE w porównaniu z MAP, ale między szacunkami punktowymi a szacowaniem tylnych plików PDF . Jako naukowiec pracujący w dziedzinie z rzadkimi danymi i dużymi niepewnościami, mogę współczuć, nie chcąc pokładać zbyt dużej pewności w wynikach „najlepszego odgadnięcia”, które mogą wprowadzać w błąd, co prowadzi do zbytniej pewności siebie.

Powiązane praktyczne rozróżnienie między metodami parametrycznymi a nieparametrycznymi . Na przykład myślę, że zarówno filtrowanie Kalmana, jak i filtrowanie cząstek byłyby akceptowane jako rekursywna estymacja bayesowska . Ale Gaussowskie założenie filtrowania Kalmana (metoda parametryczna) może dawać bardzo mylące wyniki, jeśli tył nie jest jednomodalny. Dla mnie tego rodzaju przykłady inżynieryjne podkreślają, gdzie różnice nie są ani filozoficzne, ani matematyczne, ale przejawiają się pod względem praktycznych rezultatów (tj. Czy twój autonomiczny pojazd ulegnie awarii?). Dla entuzjastów bayesowskich, których znam, ta dominująca postawa „zobacz, co działa” wydaje się dominująca ... nie jestem pewien, czy jest to prawda w szerszym ujęciu.

GeoMatt22
źródło
1
To, czy szum jest modelowany jako gaussowski czy z innego rozkładu, nie decyduje o tym, czy metoda jest parametryczna czy nieparametryczna.
Cliff AB
1
Myślałem o filtrowaniu cząstek vs. filtrowaniu Kalmana.
GeoMatt22,
1
@CliffAB Zredagowałem moją odpowiedź, aby, mam nadzieję, naprawić niezamierzoną implikację, że „parametr Gaussa <==> parametryczny”
GeoMatt22,
2
Z mojego doświadczenia (wcale nie wyczerpującego!), Książki skierowane do inżynierów w obszarach „technicznych” wydają się bardziej takie. Rzeczy takie jak robotyka i inne niezawodne / działające w czasie rzeczywistym aplikacje zwykle szybko się dowiadują, kiedy coś nie działa. Prawdopodobnie jest bardziej nominalnie bayesowski, ale probabilistyczna robotyka Sebastiana Thruna była dla mnie pouczająca. On jest facetem Udacity .
GeoMatt22,
2
W ogóle nie studiowałem tego obszaru, ale mam wrażenie, że większość klasycznej Inżynierii Niezawodności stosuje podejścia „częste”, więc może to być także obszar z pragmatycznymi tekstami?
GeoMatt22,
6

Jednak wiele osób, które opisują siebie samych jako „bayesowskie”, wydaje się odrzucać przy użyciu oszacowania maksymalnego prawdopodobieństwa w każdych okolicznościach, nawet jeśli jest to szczególny przypadek (matematycznie) metod bayesowskich, ponieważ jest to „metoda częstokroć”.

Tacy ludzie odrzuciliby MLE jako ogólną metodę dokonywania szacunków punktowych. W szczególnych przypadkach, gdy mieli powód, aby użyć munduru wcześniej i chcieli maksymalnie oszacować a posteriori, wcale nie przeszkadzał im przypadek ich obliczeń z MLE.

Najwyraźniej Bayesianie stosują również ograniczoną / ograniczoną liczbę rozkładów w porównaniu z częstymi, chociaż te rozkłady byłyby również matematycznie poprawne z punktu widzenia bayesowskiego.

Być może czasami, aby ułatwić ich obliczenia, ale nie z jakiegokolwiek punktu widzenia.

Mam wrażenie, że powszechnie stosuje się co najmniej dwie różne definicje terminu Bayesian. Pierwszy nazwałbym „matematycznie bayesowskim”, który obejmuje wszystkie metody statystyki, ponieważ obejmuje parametry, które są stałymi RV i te, które nie są stałymi RV. Następnie istnieje „kulturowo bayesowski”, który odrzuca niektóre „matematycznie bayesowskie” metody, ponieważ metody te są „częste” (tj. Z osobistej niechęci do parametru, który czasami jest modelowany jako stała lub częstotliwość).

Z pewnością należy wprowadzić rozróżnienie między różnymi podejściami do wnioskowania bayesowskiego, ale nie tym. Jeśli istnieje poczucie, że Bayesianizm jest bardziej ogólny, polega on na chęci zastosowania pojęcia prawdopodobieństwa do epistemicznej niepewności co do wartości parametrów, a nie tylko niepewnej niepewności procesu generowania danych, który dotyczy wyłącznie częstotliwości. Wnioskowanie częstych nie jest szczególnym przypadkiem wnioskowania bayesowskiego i żadną z odpowiedzi ani komentarzy na stronie Czy istnieje jakaś matematyczna podstawa debaty bayesowskiej czy częstej?sugerują, że tak jest. Jeśli w podejściu bayesowskim miałbyś uznać parametr za stałą zmienną losową, uzyskałbyś ten sam a posterior niezależnie od tego, jakie są dane - i mówiąc, że jest stały, ale nie wiesz, jaką wartość przyjmuje, nie powiedziałby nic warto powiedzieć. Podejście częsterzy przyjmuje zupełnie inną przyczepność i wcale nie wymaga obliczania tylnych rozkładów.

Scortchi - Przywróć Monikę
źródło
„Podejście częsteściowskie ma zupełnie inną przyczepność i wcale nie wymaga obliczania tylnych rozkładów” - nie o to mi chodzi. Nie mówię o zamiarze filozoficznym, mówię o matematycznej równoważności. Ktoś mógłby powiedzieć, że są „subtraktywistami”, ponieważ dodają i odejmują liczby dodatnie, ale odmawiają używania liczb ujemnych, co jest „negatywizmem”. Filozoficznie może tak być, ale matematyczne odjęcie liczby dodatniej jest tym samym, co dodanie liczby ujemnej.
Chill2Macht
Próbuję powiedzieć, że „matematycznie bayesowski” zarówno stosuje, jak i nie stosuje pojęcia prawdopodobieństwa do epistemicznej niepewności dotyczącej wartości parametrów. „Kulturowo bayesowski” stosuje jedynie (i nigdy nie stosuje) pojęcie prawdopodobieństwa do epistemicznej niepewności co do wartości parametrów. „Częstotliwość” nie stosuje wyłącznie (i nigdy nie stosuje) prawdopodobieństwa do epistemicznej niepewności co do wartości parametrów. Mówię to, że zarówno „wnioskowanie bayesowskie = kulturowo bayesowskie”, jak i „częste” wydają się być szczególnym przypadkiem opartym na tym, co mówią ludzie.
Chill2Macht
W każdym razie sądzę, że spróbuję przeczytać statystyki asymptotyczne van der Vaarta przed dalszym komentowaniem statystyk częstokroć, ale po przeczytaniu już Caselli i Bergera oraz zerowych podręczników bayesowskich nie rozumiem stwierdzenia, że ​​„podejście częstokroć ma charakter zupełnie inny” zastosowanie pojęcia prawdopodobieństwa do „po prostu niepewności niepewności procesu generowania danych”, ponieważ wydaje się ono przeczyć innym częściom tego, co napisałeś.
Chill2Macht
2
(1) Jeśli chodzi o to, że procedury częste i bayesowskie są matematycznie równoważne, ale jedynie opisane innymi terminami, to po prostu nie jest to prawdą. Czasami się pokrywają - tak jak odejmowanie odejmowanie i odejmowanie negatywne zbiega się aż do wypracowania . (2) Jeśli mogę odczytać „zarówno stosowanie, jak i nie stosowanie” jako „czasami stosowanie, czasami nie stosowanie”, wówczas „matematycznie bayesowski” jest po prostu czasem bayesowski, czasami częsty, a „kulturowo bayesowski” jest po prostu bayesowski. (3) Polecam Cox (2006), Zasady wnioskowania statystycznego , Geisser (2006), ...35
Scortchi - Przywróć Monikę
2
Tryby parametrycznego wnioskowania statystycznego i Barnett (1999), porównawcze wnioskowanie statystyczne . (4) Podejście częstokierunkowe uwzględnia jedynie prawdopodobieństwo danych przy danych wartościach parametrów; podejście bayesowskie warunkuje obserwowane dane w celu uzyskania a posteriori.
Scortchi - Przywróć Monikę