Dlaczego wcześniejsze Jeffreys są przydatne?

Odpowiedzi:

30

Pozwól mi wypełnić odpowiedź Zen. Nie podoba mi się pojęcie „reprezentowania ignorancji”. Ważną rzeczą jest Jeffreys przed ale Jeffreys posterior . Ten posterior ma na celu jak najlepsze odzwierciedlenie informacji o parametrach wniesionych przez dane. Właściwość niezmienniczości jest oczywiście wymagana dla dwóch następujących punktów. Rozważmy na przykład model dwumianowy z nieznanym parametrem proporcji i parametrem odds .ψ = θθψ=θ1θ

  1. Jeffreys posterior on najlepiej odzwierciedla informacje o przyniesione przez dane. Istnieje zgodność jeden na jeden między a . Następnie przekształcenie Jeffreysa tylnego na w tylne na (za pomocą zwykłej formuły zmiany zmiennych) powinno dać rozkład najlepiej odzwierciedlający informacje o . Zatem ten rozkład powinien być późniejszy od Jeffreysa o . Jest to właściwość niezmienniczości.θ θ ψ θ ψ ψ ψθθθψθψψψ

  2. Ważnym punktem podczas wyciągania wniosków z analizy statystycznej jest komunikacja naukowa . Wyobraź sobie, że oddajesz Jeffreysa w późniejszym do kolegi naukowego. Ale on / ona interesuje się raczej niż . Zatem nie jest to problem z właściwością niezmienniczości: on / ona musi po prostu zastosować formułę zmiany zmiennych.ψ θθψθ

Stéphane Laurent
źródło
Ach, to trochę wyjaśnia. Ale czy istnieje intuicyjnie dobry powód, dla którego wartość tylna parametru prawdopodobieństwa powinna być taka sama jak wartość tylna parametru proporcji? Wydaje mi się to raczej nienaturalne.
tskuzzy
To nie jest to samo ! Jedno jest indukowane przez drugie przez formułę zmiany zmiennych. Pomiędzy tymi dwoma parametrami istnieje zgodność jeden do jednego. Następnie rozkład tylny na jednym z tych parametrów powinien indukować rozkład tylny na drugim.
Stéphane Laurent,
2
(+1) Stéphane. OP wydaje się być nadal zdezorientowany, gdy mówi „... powinien być taki sam ...”. Dwa tylne nie są „takie same”, co się dzieje, na przykład, w przykładzie Stéphane'a masz ; jeśli nie masz tego rodzaju spójności przy użyciu domyślnych (obliczonych) priors, wtedy twoje priory są trochę szalone. P{1/3θ2/3X=x}=P{1/2ψ2X=x}
Zen.
1
Myślę, że brakuje w tym poście tego, że gdy w danych jest dużo informacji o parametrze, konkretny poprzedni zastosowany tak naprawdę nie ma znaczenia. Na przykład proporcja dwumianowa, bez względu na to, czy używamy munduru, jeffreys czy haldane wcześniej, robi bardzo małą różnicę, chyba że tył jest bardzo szeroki. W tym przypadku jest to trochę akademicki argument, który z nich jest „słuszny”, ponieważ i tak nie można wyciągnąć żadnych znaczących wniosków. Rzeczywista wartość nieinformacyjnego przeora ma wiele wymiarów, ale ten problem nie został rozwiązany - przeor Jeffreys jest tutaj zły.
probabilityislogic
3
Teoria ta jest niepełna i zależy od uporządkowania parametrów, wyboru regionu zwartego i funkcji prawdopodobieństwa. Na przykład nie przestrzega zasady prawdopodobieństwa. Trudno jest także zastosować do danych niezależnych. Co więcej, teoria Bernarda jest kompletna tylko dla problemów z parametrami 1-d. Jest to prawdopodobnie najlepsza obecnie dostępna metoda. Dobrym konkurentem jest podejście Jaynesa do transformacji.
probabilityislogic
41

Załóżmy, że ty i przyjaciel analizujecie ten sam zestaw danych przy użyciu normalnego modelu. Przyjmujesz zwykłą parametryzację normalnego modelu, używając średniej i wariancji jako parametrów, ale twój przyjaciel woli sparametryzować normalny model ze współczynnikiem zmienności i precyzją jako parametrami (co jest całkowicie „legalne”). Jeśli oboje użyjecie priory Jeffreysa, wasza tylna dystrybucja będzie tylną dystrybucją twojego przyjaciela, odpowiednio przekształconą z jego parametryzacji na twoją. W tym sensie przeor Jeffreysa jest „niezmienny”

(Nawiasem mówiąc, „niezmiennik” jest okropnym słowem; to, co naprawdę rozumiemy, to to, że jest „kowariantem” w tym samym sensie rachunku tensorowego / geometrii różnicowej, ale oczywiście ten termin ma już dobrze ustalone znaczenie probabilistyczne, więc nie możemy tego użyć).

Dlaczego ta właściwość spójności jest pożądana? Ponieważ, jeśli przeor Jeffreysa ma jakąkolwiek szansę na reprezentowanie ignorancji na temat wartości parametrów w sensie absolutnym (w rzeczywistości tak nie jest, ale z innych powodów niezwiązanych z „niezmiennością”), a nie ignorancji względem określonej parametryzacji modelu, musi być tak, że bez względu na to, od których parametryzacji arbitralnie zdecydujemy się zacząć, nasi potomni powinni „dopasować się” po transformacji.

Sam Jeffreys rutynowo naruszał tę właściwość „niezmienniczości”, konstruując swoje przeory.

Ten artykuł zawiera kilka interesujących dyskusji na ten temat i pokrewne tematy.

Zen
źródło
1
+1: Dobra odpowiedź. Ale dlaczego wcześniejsza Jeffreys nie reprezentuje ignorancji na temat wartości parametrów?
Neil G
4
Ponieważ to nie jest nawet dystrybucja. Twierdzenie, że rozkład odzwierciedla ignorancję, jest paradoksalne. Rozkład zawsze odzwierciedla informacje.
Stéphane Laurent,
2
Kolejne odniesienie: projecteuclid.org/…
Stéphane Laurent,
@ StéphaneLaurent: Trzeba mieć trochę wiary nawet w stanie całkowitej nieświadomości. Niezależnie od tego, czy twoje dane tylne są minus, niezależnie od prawdopodobieństwa wynikającego z twoich danych, jest to przekonanie, że zakładasz, że jesteś w stanie ignorancji. Intuicyjną zasadą, której należy przestrzegać przy podejmowaniu decyzji, jest przekonanie, że powinna ona być niezmienna w przypadku zmian etykiet (w tym reparametryzacji). Nie jestem pewien, ale myślę, że sama zasada (we wszystkich możliwych interpretacjach - maksymalna entropia, niezmienna reparametryzacja itp.) Zawsze decyduje o przekonaniu.
Neil G
Dlatego, gdy mówi się, że „rozkład odzwierciedla ignorancję”, oznacza to, że rozkład jest zgodny z tą zasadą.
Neil G
12

Aby dodać kilka cytatów do doskonałej odpowiedzi Zen: Według Jaynesa przeor Jeffreys jest przykładem zasady grup transformacji, która wynika z zasady obojętności:

A1A2p1=p2(1,2) moglibyśmy następnie wygenerować nowy problem, w którym nasz stan wiedzy jest taki sam, ale w którym przypisujemy różne prawdopodobieństwa…

Teraz, aby odpowiedzieć na twoje pytanie: „Dlaczego nie chcesz, aby przed zmianą wprowadzono zmiany w zmiennej?”

Według Jaynesa parametryzacja jest innym rodzajem arbitralnej etykiety i nie należy być w stanie „zwykłą wymianą etykiet wygenerować nowy problem, w którym nasz stan wiedzy jest taki sam, ale w którym przypisujemy różne prawdopodobieństwa. ”

Neil G.
źródło
2
Jaynes wydaje mi się nieco mistyczny.
Stéphane Laurent,
@ StéphaneLaurent: Może wtedy byłem zbyt łatwy do konwersji! Ale znalazłem to bardzo przekonujące: ET Jaynes, „Gdzie stoimy na Maximum Entropy?”, W The Maximum Entropy Formalism, R. Levine i M. Tribus, Eds. Cambridge, MA, USA: The MIT Press, 1979, s. 15–118.
Neil G,
2
Xian otrzymał pocztę wychwalającą Jaynesa: ceremade.dauphine.fr/~xian/critic.html Szkoda, jeśli nie czytasz francuskiego, ta poczta jest zarówno przerażająca, jak i zabawna. Wydaje się, że pisarz oszalał na punkcie zbytniego myślenia o statystykach bayesowskich;)
Stéphane Laurent,
1
@ StéphaneLaurent: Czytam teraz. Jest to absolutnie słuszne: „si vous affirmez pl page 508” „niepowtarzalność większości eksperymentów” à quoi bon ensuite „szukając optymalnych procedur fequentistycznych” na stronie 512? Si la plupart des problèmes ne peuvent donc pas être cechy par les procédures fréquentistes, skomentuj „choix Bayésien”, qui se veut étre le paradigme pour tout problème inférentiel, n'est-ce pas, peut-il se baser sur une uzgadnianie z fréquentisme (s. 517-518)? Pourquoi ne pas dire une fois pour toute qu'une probabilité n'est jamamais une féquence! "
Neil G
1
Ponadto: „Le Principe du Maximum d'Entropie est lui absolament fondamental étant donné qu'il est enécessaire and suffisant pour régler ces cas d'école i que par consurequent il procure dans ces cas signification véritable des probabilités a priori. Quand on sait qu'il permet ensuite d'unifier Théorie de l'Information, Mécanique Statistique, Thermodynamique… ”opisuje również moje stanowisko. Jednak w przeciwieństwie do pisarza nie jestem zainteresowany poświęcaniem godzin na przekonywanie innych do zaakceptowania tego, co uważam za tak naturalne.
Neil G
4

pN(μ0,σ02)+(1p)N(μ1,σ12)
Pisałem z Clarą Grazian.)
Xi'an
źródło
-1

Jeffreys Prior jest bezużyteczny . To dlatego, że:

  1. Określa tylko formę dystrybucji; nie mówi ci, jakie powinny być jego parametry.
  2. Nigdy nie jesteś całkowicie ignorantem - zawsze wiesz o parametrze, który znasz (np. Często nie może to być nieskończoność). Użyj go do wnioskowania, definiując wcześniejszą dystrybucję. Nie okłamuj się, mówiąc, że nic nie wiesz.
  3. „Niezmienność w trakcie transformacji” nie jest pożądaną właściwością. Twoje prawdopodobieństwo zmienia się w trakcie transformacji (np. Jakobińskiej). To nie stwarza „nowych problemów” w tempie Jaynesa. Dlaczego przeora nie powinna być traktowana tak samo?

Po prostu tego nie używaj.

gdzie indziej niesklasyfikowane
źródło
1
Co? Prawdopodobieństwo nie jest gęstością i nie zmieni się podczas reparametryzacji
innisfree