Piszę krótki esej teoretyczny na kurs statystyki bayesowskiej (w mgr ekonomii) na temat nieinformacyjnych priorów i staram się zrozumieć, jakie są etapy rozwoju tej teorii.
Do tej pory moja oś czasu składa się z trzech głównych kroków: zasada obojętności Laplace'a (1812), priory non-invariant (Jeffreys (1946)), odniesienie Bernardo przed (1979).
Z przeglądu literatury zrozumiałem, że zasada obojętności (Laplace) była pierwszym narzędziem służącym do przedstawienia braku wcześniejszych informacji, ale brak wymogu niezmienności doprowadził do jej porzucenia do lat 40., kiedy Jeffreys wprowadził swoją metodę, która ma pożądana właściwość niezmienności. Pojawienie się paradoksów marginalizacji z powodu nieostrożnego użycia niewłaściwego wcześniejszego okresu w latach 70. zmusiło Bernardo do rozwinięcia swojej referencyjnej wcześniejszej teorii w celu rozwiązania tego problemu.
Czytając literaturę, każdy autor powołuje się na inny wkład: maksymalna entropia Jaynesa, prawdopodobieństwo przetłumaczenia danych przez Boxa i Tiao, Zellner, ...
Twoim zdaniem, jakich kluczowych kroków brakuje mi?
EDYCJA : Dodaję (główne) referencje, jeśli ktoś potrzebuje:
1) Wybór uprzedniego według zasad formalnych, Kass, Wasserman
2) Katalog nieinformacyjnych priorów, Yang, Berger
3) Nieinformacyjna interpretacja Bayesian Priors oraz problemy z konstrukcją i aplikacjami
źródło
Odpowiedzi:
Wydaje się, że brakuje ci wczesnej historii. Możesz sprawdzić artykuł Fienberga (2006) Kiedy wnioskowanie bayesowskie stało się „bayesowskie”? . Po pierwsze zauważa, że Thomas Bayes był pierwszym, który zasugerował użycie munduru przed:
Pierre Simon Laplace był następną osobą, która to omówiła:
Ponadto Carl Friedrich Gauss odniósł się także do używania nieinformacyjnego przeora, jak zauważyli David i Edwards (2001) w książce Annotated Readings in the History of Statistics :
a jak zauważa Fienberg (2006), „odwrotne prawdopodobieństwo” (a co za tym idzie, stosowanie jednolitych priorytetów) było popularne na przełomie XIX i XX wieku
Wczesną historię podejścia bayesowskiego przegląda także Stigler (1986) w swojej książce Historia statystyki: pomiar niepewności przed 1900 rokiem .
W swojej krótkiej recenzji nie wspominasz także o Ronaldzie Aylmer Fisher (ponownie cytowanym po Fienberg, 2006):
Jaynes (1986) przedstawił swój krótki artykuł przeglądowy Bayesian Methods: General Background. Samouczek wprowadzający , który można sprawdzić, ale nie koncentruje się na nieinformacyjnych priory. Ponadto, jak zauważył AdamO , zdecydowanie powinieneś przeczytać The Epic Story of Maximum Likelihood autorstwa Stiglera (2007).
Warto również wspomnieć, że nie ma czegoś takiego jak „nieinformacyjny przeor” , dlatego wielu autorów woli mówić o „niejasnych przeorach” lub „cotygodniowych przeorach informacyjnych” .
Przegląd teoretyczny Kass i Wasserman (1996) przedstawili w Wybór wcześniejszych dystrybucji według formalnych zasad , którzy dokładniej podchodzą do wyboru priorytetów, z obszerną dyskusją na temat korzystania z nieinformacyjnych priorytetów.
źródło
Kilka komentarzy na temat wad niedoinformujących priorów (nieinformacyjnych priorów) jest prawdopodobnie dobrym pomysłem, ponieważ badanie takich wad pomogło rozwinąć koncepcję nieinformacyjnych przeorów w historii.
Możesz dodać kilka uwag na temat wad / wad przyjmowania nieinformacyjnych priorytetów. Wśród wielu uwag krytycznych wskazuję dwa.
(1) Zasadniczo przyjęcie nieinformacyjnych priorów ma problemy ze spójnością, szczególnie gdy rozkład modelu ma zachowanie multimodalne.
Ten problem nie jest unikalny dla nieinformacyjnych aurorzy, ale podziela go wiele innych procedur bayesowskich, jak wskazano w poniższym artykule wraz z jego dyskusjami.
Diaconis, Persi i David Freedman. „W sprawie spójności szacunków Bayesa”. The Annals of Statistics (1986): 1-26.
Obecnie noninformacyjny przeor nie jest już przedmiotem badań. Wydaje się, że istnieje większe zainteresowanie bardziej elastycznymi wyborami wcześniej w ustawieniach nieparametrycznych. Przykładami są proces Gaussa poprzedzający nieparametryczną procedurę Bayesa lub model elastyczny, taki jak mieszanina priorów Dirichleta, jak w
Antoniak, Charles E. „Mieszaniny procesów Dirichleta z zastosowaniami do bayesowskich problemów nieparametrycznych”. Roczniki statystyki (1974): 1152-1174.
Ale znowu taki przeor ma swoje własne problemy ze spójnością.
(2) Większość tak zwanych „nieinformacyjnych priorów” nie jest dobrze zdefiniowana.
Jest to prawdopodobnie najbardziej widoczny problem związany z nieinformacyjnymi priory podczas ich rozwoju.
Jednym z przykładów jest to, że zdefiniowanie limitu nieinformacyjnego uprzedniego jako limitu sekwencji odpowiednich priorytetów doprowadzi do paradoksu marginalizacji. Jak wspomniałeś, wcześniejszy odniesienie Bernardo ma również problem polegający na tym, że Berger nigdy nie udowodnił, że jego formalna definicja jest niezależna od jego konstrukcji / przegrody. Zobacz dyskusję w
Berger, James O., José M. Bernardo i Dongchu Sun. „Formalna definicja referencyjnych priorytetów”. The Annals of Statistics (2009): 905-938.
Jedną z najlepszych definicji o przeorze Jeffreysa, która jest dobrze zdefiniowana, jest to, że został wybrany przeorem tak, aby był niezmienny przy pewnym równoległym tłumaczeniu nad rozmaitością Riemannian wyposażoną w miernik informacji Fishera, ale nawet to nie rozwiązuje pierwszego problemu.
Możesz także przeczytać moje wyjaśnienie dotyczące paradoksu marginalizacji .
źródło
Chciałbym zamieścić w komentarzach, ale chyba nie mam jeszcze reputacji. Jedyną brakującą rzeczą, nieuwzględnioną w komentarzach, jest szczególny przypadek nieinformacyjnych priorów, których pochodzenia próbowałem wytropić i których nie znalazłem. Może poprzedzać papier Jeffreysa.
W przypadku rozkładu normalnego widziałem rozkład Cauchy'ego wykorzystywany jako nieinformacyjny pierwszeństwo dla danych o normalnym prawdopodobieństwie. Powodem jest to, że dokładność rozkładu Cauchy'ego wynosi zero, przy czym precyzja jest dzielona przez wariancję. Tworzy dość osobliwy zestaw sprzecznych pojęć.
W zależności od tego, jak zdefiniujesz całkę, albo nie ma zdefiniowanej wariancji, albo dochodzi ona do nieskończoności względem mediany, co oznacza, że precyzja spada do zera. W przypadku sprzężonej aktualizacji, która nie miałaby zastosowania tutaj, dodajesz ważone dokładności. Myślę, że właśnie dlatego powstała idea właściwego przełożonego o idealnie nieprecyzyjnej gęstości. Jest to również równoważne t Studenta z jednym stopniem swobody, który może być również źródłem.
Dwa najwcześniejsze odniesienia do rozkładu Cauchy'ego są funkcjami prawdopodobieństwa. Pierwszy w liście od Poissona do Laplace'a jako wyjątek od centralnego twierdzenia granicznego. Drugi dotyczył artykułów z 1851 r. W bitwie między Bienayme i Cauchy o ważność zwykłych najmniejszych kwadratów.
Już w latach 80. odnalazłem odniesienia do jego zastosowania jako nieinformacyjnego, ale nie mogę znaleźć pierwszego artykułu ani książki. Nie znalazłem również dowodu na to, że jest to informacja. Znalazłem cytat z książki Jeffreysa z 1961 r. Na temat teorii prawdopodobieństwa, ale nigdy nie prosiłem o nią w formie wypożyczeń międzybibliotecznej.
Może być po prostu słabo informacyjny. Region o największej gęstości 99,99% ma szeroki zakres 1272 półkwartów.
Mam nadzieję, że to pomoże. To dziwny szczególny przypadek, ale widać go w wielu dokumentach regresyjnych. Spełnia wymagania dla akcji Bayesa, będąc odpowiednim uprzednim, przy minimalnym wpływie na lokalizację i skalę.
źródło