Historia wcześniejszej nieinformacyjnej teorii

Piszę krótki esej teoretyczny na kurs statystyki bayesowskiej (w mgr ekonomii) na temat nieinformacyjnych priorów i staram się zrozumieć, jakie są etapy rozwoju tej teorii.

Do tej pory moja oś czasu składa się z trzech głównych kroków: zasada obojętności Laplace'a (1812), priory non-invariant (Jeffreys (1946)), odniesienie Bernardo przed (1979).

Z przeglądu literatury zrozumiałem, że zasada obojętności (Laplace) była pierwszym narzędziem służącym do przedstawienia braku wcześniejszych informacji, ale brak wymogu niezmienności doprowadził do jej porzucenia do lat 40., kiedy Jeffreys wprowadził swoją metodę, która ma pożądana właściwość niezmienności. Pojawienie się paradoksów marginalizacji z powodu nieostrożnego użycia niewłaściwego wcześniejszego okresu w latach 70. zmusiło Bernardo do rozwinięcia swojej referencyjnej wcześniejszej teorii w celu rozwiązania tego problemu.

Czytając literaturę, każdy autor powołuje się na inny wkład: maksymalna entropia Jaynesa, prawdopodobieństwo przetłumaczenia danych przez Boxa i Tiao, Zellner, ...

Twoim zdaniem, jakich kluczowych kroków brakuje mi?

EDYCJA : Dodaję (główne) referencje, jeśli ktoś potrzebuje:

1) Wybór uprzedniego według zasad formalnych, Kass, Wasserman

2) Katalog nieinformacyjnych priorów, Yang, Berger

3) Nieinformacyjna interpretacja Bayesian Priors oraz problemy z konstrukcją i aplikacjami

bayesian references prior history Doktorat
źródło

czy po ukończeniu tego eseju teoretycznego byłbyś w stanie go tutaj powiązać?

Nikolas Rieble,

Byłoby wspaniale, gdybyś mógł udzielić odpowiedzi na swoje własne pytanie podsumowujące twoją tezę.

Tim

Wcześniej połączyłem ten artykuł, ale epicka historia maksymalnego prawdopodobieństwa obejmuje historyczną „lukę” między Laplace'm a Jeffreyem: gdzie praca Gaussa, Hotellinga, Fishera, Bernoulli i innych wskazywała na maksymalne prawdopodobieństwo w tym czasie.

AdamO,

@alessandro opisuje, w jaki sposób utrzymywano podejście Laplaciana przez prawie sto lat po tym, jak Gauss opracował i stosował jednolite grafiki (uznając je za nieinformacyjne). Pearson i Kristine Smith zlekceważyli ML, ponieważ wynikające z tego wnioskowanie nie dotyczyło prawdopodobieństw, jakich pragnąłby Bayesian.

AdamO,

Minuta (pedantyczna, jeśli chcesz), ale prawdopodobnie przydatna uwaga: Jeffreys = (profesor Sir) Harold Jeffreys, brytyjski matematyk, geofizyk i wiele innych; wyjaśnił mi w liście 40 lat temu, że wolał zaborcze Jeffreysa, ponieważ Jeffreys był podatny na mutację niż całkiem niepoprawny Jeffrey. Powyżej mamy przykład! (Nie pomaga to, że Richard C. Jeffrey, amerykański filozof, zupełnie inna osoba, również pisał o prawdopodobieństwie).

Nick Cox,

Odpowiedzi:

Wydaje się, że brakuje ci wczesnej historii. Możesz sprawdzić artykuł Fienberga (2006) Kiedy wnioskowanie bayesowskie stało się „bayesowskie”? . Po pierwsze zauważa, że Thomas Bayes był pierwszym, który zasugerował użycie munduru przed:

W obecnym języku statystycznym praca Bayesa wprowadza jednolity wcześniejszy rozkład parametru dwumianowego , rozumowanie przez analogię z „tabelą bilardową” i czerpanie z postaci rozkładu krańcowego dwumianowej zmiennej losowej, a nie na zasadzie „niewystarczający powód”, jak twierdzi wielu innych. $\theta$

Pierre Simon Laplace był następną osobą, która to omówiła:

$\theta$

$f (θ ∣ x_{1}, x_{2}, \dots, x_{n}) \propto f (x_{1}, x_{2}, \dots, x_{n} ∣ θ)$ $f(\theta\mid x_1,x_2,\dots,x_n) \propto f(x_1,x_2,\dots,x_n\mid\theta)$
$\theta$

Ponadto Carl Friedrich Gauss odniósł się także do używania nieinformacyjnego przeora, jak zauważyli David i Edwards (2001) w książce Annotated Readings in the History of Statistics :

$h$

$f (h | x) \propto f (x | h)$ $f(h|x) \propto f(x|h)$
$h$ $[0, \infty)$

a jak zauważa Fienberg (2006), „odwrotne prawdopodobieństwo” (a co za tym idzie, stosowanie jednolitych priorytetów) było popularne na przełomie XIX i XX wieku

$t$ $\mu$ $\mu$ $h =\sigma^{-1}$

Wczesną historię podejścia bayesowskiego przegląda także Stigler (1986) w swojej książce Historia statystyki: pomiar niepewności przed 1900 rokiem .

W swojej krótkiej recenzji nie wspominasz także o Ronaldzie Aylmer Fisher (ponownie cytowanym po Fienberg, 2006):

Fisher zrezygnował z metod odwrotnych i w swoim własnym podejściu do wnioskowania nazwał „prawdopodobieństwo”, a twierdził, że pojęcie to różni się od prawdopodobieństwa. Postęp Fishera pod tym względem był jednak powolny. Stigler (164) zauważył, że w nieopublikowanym rękopisie z 1916 r. Fisher nie rozróżniał między prawdopodobieństwem a odwrotnym prawdopodobieństwem z płaskim uprzedzeniem, nawet jeśli później dokonał rozróżnienia, o którym twierdził, że go w tym momencie zrozumiał.

Jaynes (1986) przedstawił swój krótki artykuł przeglądowy Bayesian Methods: General Background. Samouczek wprowadzający , który można sprawdzić, ale nie koncentruje się na nieinformacyjnych priory. Ponadto, jak zauważył AdamO , zdecydowanie powinieneś przeczytać The Epic Story of Maximum Likelihood autorstwa Stiglera (2007).

Warto również wspomnieć, że nie ma czegoś takiego jak „nieinformacyjny przeor” , dlatego wielu autorów woli mówić o „niejasnych przeorach” lub „cotygodniowych przeorach informacyjnych” .

Przegląd teoretyczny Kass i Wasserman (1996) przedstawili w Wybór wcześniejszych dystrybucji według formalnych zasad , którzy dokładniej podchodzą do wyboru priorytetów, z obszerną dyskusją na temat korzystania z nieinformacyjnych priorytetów.

Tim
źródło

To była odpowiedź, której szukałem. Dziękuję Ci!

Doktorat

Myślę, że Fienberg zbyt daleko posunął dumę Bayesian. Osobiście bardzo nie lubię używać „odwrotnego prawdopodobieństwa” do definiowania czegokolwiek, ponieważ nie wydaje się ono być spójne z obrazem integralnej geometrii zaproponowanym przez Adlera i Taylora. Każda dobra procedura statystyczna powinna mieć swoją matematyczną korespondencję, odwrotne prawdopodobieństwo jest tak pokręcone, że ledwo można je przeanalizować, gdy moje doświadczenie jest nieco bardziej wrażliwe.

Henry.L

@ Henry.L ... niemniej jest to część historii myśli statystycznej :) Zauważ też, że nie tylko Fienberg podaje takie przykłady. Cały bunt przeciwko odwrotnemu prawdopodobieństwu i przeciw Bayesowi zaczął się, ponieważ stał się dość popularny.

Tim

@Tim Tak, myślę, że to właśnie Thomas Kuhn nazwał „przesunięciem schematu” i znanym również jako „... przeciwnicy w końcu umierają, a nowe pokolenie dorasta” :)).

Henry.L,

Kilka komentarzy na temat wad niedoinformujących priorów (nieinformacyjnych priorów) jest prawdopodobnie dobrym pomysłem, ponieważ badanie takich wad pomogło rozwinąć koncepcję nieinformacyjnych przeorów w historii.

Możesz dodać kilka uwag na temat wad / wad przyjmowania nieinformacyjnych priorytetów. Wśród wielu uwag krytycznych wskazuję dwa.

(1) Zasadniczo przyjęcie nieinformacyjnych priorów ma problemy ze spójnością, szczególnie gdy rozkład modelu ma zachowanie multimodalne.

Ten problem nie jest unikalny dla nieinformacyjnych aurorzy, ale podziela go wiele innych procedur bayesowskich, jak wskazano w poniższym artykule wraz z jego dyskusjami.

Diaconis, Persi i David Freedman. „W sprawie spójności szacunków Bayesa”. The Annals of Statistics (1986): 1-26.

Obecnie noninformacyjny przeor nie jest już przedmiotem badań. Wydaje się, że istnieje większe zainteresowanie bardziej elastycznymi wyborami wcześniej w ustawieniach nieparametrycznych. Przykładami są proces Gaussa poprzedzający nieparametryczną procedurę Bayesa lub model elastyczny, taki jak mieszanina priorów Dirichleta, jak w

Antoniak, Charles E. „Mieszaniny procesów Dirichleta z zastosowaniami do bayesowskich problemów nieparametrycznych”. Roczniki statystyki (1974): 1152-1174.

Ale znowu taki przeor ma swoje własne problemy ze spójnością.

(2) Większość tak zwanych „nieinformacyjnych priorów” nie jest dobrze zdefiniowana.

Jest to prawdopodobnie najbardziej widoczny problem związany z nieinformacyjnymi priory podczas ich rozwoju.

Jednym z przykładów jest to, że zdefiniowanie limitu nieinformacyjnego uprzedniego jako limitu sekwencji odpowiednich priorytetów doprowadzi do paradoksu marginalizacji. Jak wspomniałeś, wcześniejszy odniesienie Bernardo ma również problem polegający na tym, że Berger nigdy nie udowodnił, że jego formalna definicja jest niezależna od jego konstrukcji / przegrody. Zobacz dyskusję w

Berger, James O., José M. Bernardo i Dongchu Sun. „Formalna definicja referencyjnych priorytetów”. The Annals of Statistics (2009): 905-938.

Jedną z najlepszych definicji o przeorze Jeffreysa, która jest dobrze zdefiniowana, jest to, że został wybrany przeorem tak, aby był niezmienny przy pewnym równoległym tłumaczeniu nad rozmaitością Riemannian wyposażoną w miernik informacji Fishera, ale nawet to nie rozwiązuje pierwszego problemu.

Możesz także przeczytać moje wyjaśnienie dotyczące paradoksu marginalizacji .

Henry.L
źródło

To jest świetny post i nikt z nas o tym nie pomyślał. Dobra robota.

Dave Harris,

Wprowadziłem kilka drobnych zmian w wyrażeniu, nie próbując zmieniać żadnego znaczenia ani implikacji. Sprawdź, czy Twoje znaczenie jest niezmienne podczas edycji.

Nick Cox,

Chciałbym zamieścić w komentarzach, ale chyba nie mam jeszcze reputacji. Jedyną brakującą rzeczą, nieuwzględnioną w komentarzach, jest szczególny przypadek nieinformacyjnych priorów, których pochodzenia próbowałem wytropić i których nie znalazłem. Może poprzedzać papier Jeffreysa.

W przypadku rozkładu normalnego widziałem rozkład Cauchy'ego wykorzystywany jako nieinformacyjny pierwszeństwo dla danych o normalnym prawdopodobieństwie. Powodem jest to, że dokładność rozkładu Cauchy'ego wynosi zero, przy czym precyzja jest dzielona przez wariancję. Tworzy dość osobliwy zestaw sprzecznych pojęć.

\frac{1}{π} \frac{Γ}{Γ^{2} + (x - μ)^{2}} .

$\frac{1}{\pi}\frac{\Gamma}{\Gamma^2+(x-\mu)^2}.$

W zależności od tego, jak zdefiniujesz całkę, albo nie ma zdefiniowanej wariancji, albo dochodzi ona do nieskończoności względem mediany, co oznacza, że precyzja spada do zera. W przypadku sprzężonej aktualizacji, która nie miałaby zastosowania tutaj, dodajesz ważone dokładności. Myślę, że właśnie dlatego powstała idea właściwego przełożonego o idealnie nieprecyzyjnej gęstości. Jest to również równoważne t Studenta z jednym stopniem swobody, który może być również źródłem.

$2\Gamma$

Dwa najwcześniejsze odniesienia do rozkładu Cauchy'ego są funkcjami prawdopodobieństwa. Pierwszy w liście od Poissona do Laplace'a jako wyjątek od centralnego twierdzenia granicznego. Drugi dotyczył artykułów z 1851 r. W bitwie między Bienayme i Cauchy o ważność zwykłych najmniejszych kwadratów.

Już w latach 80. odnalazłem odniesienia do jego zastosowania jako nieinformacyjnego, ale nie mogę znaleźć pierwszego artykułu ani książki. Nie znalazłem również dowodu na to, że jest to informacja. Znalazłem cytat z książki Jeffreysa z 1961 r. Na temat teorii prawdopodobieństwa, ale nigdy nie prosiłem o nią w formie wypożyczeń międzybibliotecznej.

Może być po prostu słabo informacyjny. Region o największej gęstości 99,99% ma szeroki zakres 1272 półkwartów.

Mam nadzieję, że to pomoże. To dziwny szczególny przypadek, ale widać go w wielu dokumentach regresyjnych. Spełnia wymagania dla akcji Bayesa, będąc odpowiednim uprzednim, przy minimalnym wpływie na lokalizację i skalę.

Dave Harris
źródło