W jaki sposób ramy bayesowskie są lepsze w interpretacji, gdy zwykle używamy nieinformacyjnych lub subiektywnych priorów?

18

Często argumentuje się, że szkielet bayesowski ma dużą przewagę interpretacyjną (nad częstokroć), ponieważ oblicza prawdopodobieństwo parametru na podstawie danych - zamiast jak w ramy dla częstych. Jak na razie dobrze.p ( x | θ )p(θ|x)p(x|θ)

Ale całe równanie opiera się na:

p(θ|x)=p(x|θ).p(θ)p(x)

wygląda mi trochę podejrzanie z 2 powodów:

  1. W wielu artykułach zwykle używane są nieinformacyjne priory (rozkłady jednolite), a następnie po prostu , więc bayesianie uzyskują taki sam wynik, jak częsterzy - więc w jaki sposób lepiej bayesowskie ramy interpretacja, kiedy prawdopodobieństwo bayesowskie a posteriori i częstokroć są tymi samymi rozkładami? Po prostu daje ten sam wynik.p(θ|x)=p(x|θ)

  2. Korzystając z priory pouczających, otrzymujesz różne wyniki, ale na bayesowski wpływ ma subiektywny przeor, więc całe ma również subiektywny odcień.p(θ|x)

Innymi słowy, cały argument będący lepszym w interpretacji niż opiera się na założeniu, że jest rodzajem „prawdziwym”, co zwykle nie jest, to tylko punkt wyjścia, który w jakiś sposób postanowiliśmy uruchomić MCMC, domniemanie, ale nie jest to opis rzeczywistości (myślę, że nie można go zdefiniować).p ( x | θ ) p ( θ )p(θ|x)p(x|θ)p(θ)

Jak więc możemy argumentować, że bayesian jest lepszy w interpretacji?

Ciekawy
źródło
4
(1) Zestawy podejrzewać, ponieważ jej wniosek jest błędny: Bayesa wyniki z uninformative priors to nie koniecznie taka sama, jak częstościowym wniosków. W rzeczywistości w wielu przypadkach wydaje się, że nie ma zgody co do tego, czym jest „nieinformacyjny przeor”! (2) jest również dyskusyjny, ponieważ domyślnie zakłada, że ​​każde założenie przyjęte w analizie częstokroć nie jest subiektywne - ale tak nie jest. Wreszcie, co dokładnie rozumiesz przez „lepszą interpretację”? Twoje pytanie jest dwuznaczne bez jego definicji.
whuber
1
Oprócz komentarza Whubera chciałbym powiedzieć, że nie ma ogólnego powodu, dla którego Bayes jest lepszy niż częsty, stąd argument. Czasami Bayes daje znaczące wyniki, a czasem częsty sposób jest lepszy. Jednak w zastosowanym polu nie powinno być żadnego powodu, dla którego należałoby uzyskać bardzo różne wyniki. Z filozoficznego punktu widzenia Bayes jest zdecydowanie silny, ale jak wszyscy wiemy, teoria i praktyka różnią się, czasem drastycznie. Niepokoi mnie również pański pierwszy akapit. Wydaje mi się, że jesteś oddanym Bayesianinem (nie ma w tym nic złego.).
suncoolsu,
Czy tytuł nie powinien być uninformative or *objective* priors? W subjectivepriors są dokładnie informacyjne priors.
javadba

Odpowiedzi:

15

Aby dać bardziej wąską odpowiedź niż doskonałe, które już zostały opublikowane, i skupić się na przewadze w interpretacji - Bayesowska interpretacja np. „95% wiarygodnego przedziału” oznacza prawdopodobieństwo, że prawdziwa wartość parametru mieści się w odstęp wynosi 95%. Jedna z dwóch powszechnych częstych interpretacji np. „95% przedziału ufności”, nawet jeśli liczbowo oba są identyczne, polega na tym, że w dłuższej perspektywie, gdybyśmy wykonywali tę procedurę wiele razy, częstotliwość, z jaką interwał obejmowałby rzeczywistą wartość zbieżną do 95%. Pierwsza jest intuicyjna, druga nie. Spróbuj wytłumaczyć menedżerowi, że nie możesz powiedzieć „Prawdopodobieństwo, że nasze panele słoneczne ulegną degradacji o mniej niż 20% w ciągu 25 lat wynosi 95%”, ale zamiast tego musi powiedzieć „

Alternatywną interpretacją dla częstokrzyskich byłoby: „Przed wygenerowaniem danych istniała 5% szansa, że ​​przedział, który obliczę za pomocą ustalonej przeze mnie procedury, spadnie całkowicie poniżej rzeczywistej wartości parametru. Jednak teraz, kiedy już zgromadziliśmy dane, nie możemy wypowiedzieć takiego stwierdzenia, ponieważ nie jesteśmy subiektywistami, a prawdopodobieństwo wynosi 0 lub 1, w zależności od tego, czy rzeczywiście leży ono poniżej rzeczywistej wartości parametru, czy też nie. ” Pomoże to audytorom i przy obliczaniu rezerwy gwarancyjnej. (Właściwie uważam tę definicję za rozsądną, choć zwykle nieużyteczną; nie jest też łatwa do zrozumienia intuicyjnie, a zwłaszcza jeśli nie jesteś statystyką).

Żadna interpretacja częstokrzyska nie jest intuicyjna. Wersja bayesowska to. Stąd „duża przewaga w interpretacji”, jaką zapewnia podejście bayesowskie.

łucznik
źródło
Mój problem z argumentem anty-częstym polega na tym, że zbyt wiele próbuje opisać procedurę jako odpowiedź. Spróbuj tego samego eksperymentu dla siebie w interpretacji, ale co do tego, jaki wniosek wyciągnąć z wyników. Jak dokładnie postąpiłbyś inaczej w oparciu o wyniki uzyskane przez częsty i Bayesian? W rzeczywistości nadal będziesz postępować tak samo, jeśli zrozumiesz oba. Nie trzeba przechodzić do poziomu procedury, aby wyjaśnić, że „najlepiej jest działać tak i tak, w oparciu o zaufanie danych”.
PascalVKooten
Ponadto, z definicji, będziesz musiał zrobić więcej wyjaśnień w przypadku bayesowskim, ponieważ masz nie tylko „to, co mówią nam dane”, ale także, jakie informacje zawiera uprzedni! Bayesianie mają tendencję do długiego wyjaśniania częstych, ale nie zajmują się wyjaśnianiem, co wybrali wcześniej, dlaczego wybrali przeora, a konkretnie dlaczego.
PascalVKooten
Cóż, częściowo nie zgodzę się z twoim ostatnim punktem. Jako przykład, kiedy przeprowadzałem analizę niezawodności bardzo, bardzo drogich urządzeń w mojej poprzedniej pracy, traktowaliśmy wyniki naszej poprzedniej analizy niezawodności jako wcześniejszej dla naszej nowej, z obniżoną wagą pod względem „równoważnej wielkości próbki” do weź pod uwagę niestacjonarność świata rzeczywistego i niewielkie zmiany w designie itp. I tak naprawdę, statystyki bayesowskie polegają na aktualizowaniu twoich wcześniejszych danych; klasyczna statystyka nie „aktualizuje się”, więc te same wyniki uzyskuje się tylko wtedy, gdy twój przeor jest płaski, z pewnymi wyjątkami.
jbowman
Po prostu połączę zestawy danych i przeprowadzę kolejną analizę ... nie trzeba wymyślać wcześniejszego. Nie ma lepszego wcześniejszego niż rzeczywiste wcześniejsze dane: otrzymujesz „prawdziwy” oparty na danych tył.
PascalVKooten
Cóż, możesz nie chcieć dokładnie poprzedniej tylnej dla nowego przeora, w naszym przypadku z powodu trwających drobnych zmian projektowych i naszej wiedzy, że MF. proces również ewoluował, przez co nasze wcześniejsze informacje nie były w 100% informujące o przyszłych danych. Mogą również wystąpić względy wykonawcze. Wydaje mi się, że twoja uwaga jest ogólnie słuszna.
jbowman
13

p(θ|x)p(x|θ)p(x|θ)p(θ|x)

Zauważ, że informacyjne priory niekoniecznie są subiektywne, na przykład nie uważałbym za subiektywną wiedzę, aby twierdzić, że wcześniejsza wiedza o pewnym systemie fizycznym powinna być niezależna od jednostek miar (ponieważ są one zasadniczo arbitralne), prowadząc do idei grup transformacji i „minimalnie informacyjne” priory.

Drugą stroną ignorowania subiektywnej wiedzy jest to, że twój system może nie być optymalny, ponieważ ignorujesz wiedzę ekspercką, więc subiektywność niekoniecznie jest złą rzeczą. Na przykład w zwykłym problemie „wnioskowania o monetę”, często używanym jako motywujący przykład, będziesz uczyć się stosunkowo powoli z jednolitym wyprzedzeniem w miarę pojawiania się danych. Ale czy wszystkie wielkości stronniczości są równie prawdopodobne uzasadnionym założeniem? Nie, łatwo jest zrobić nieco tendencyjną monetę lub całkowicie całkowicie tendencyjną (dwie głowy lub dwie opowieści), więc jeśli wykorzystamy to założenie w naszej analizie, poprzez subiektywne uprzednie, potrzebujemy mniej danych, aby zidentyfikować stronniczość faktycznie jest.

Częste analizy często zawierają również subiektywne elementy (na przykład decyzja o odrzuceniu hipotezy zerowej, jeśli wartość p jest mniejsza niż 0,05, nie ma logicznego przymusu, aby to zrobić, jest to jedynie tradycja, która okazała się przydatna). Zaletą podejścia bayesowskiego jest to, że subiektywność jest wyraźnie wyrażona w obliczeniach, zamiast pozostawiać to w domniemaniu.

Na koniec dnia chodzi o „konie na kursy”, powinieneś mieć oba zestawy narzędzi w swoim zestawie narzędzi i być przygotowanym do użycia najlepszego narzędzia do danego zadania.

Dikran Torbacz
źródło
6

Bayesowskie ramy mają dużą przewagę nad częstymi, ponieważ nie zależą od posiadania „kryształowej kuli” pod względem znajomości prawidłowych założeń dystrybucyjnych. Metody bayesowskie zależą od wykorzystania posiadanych informacji i umiejętności kodowania tych informacji w rozkład prawdopodobieństwa.

Stosowanie metod bayesowskich polega w zasadzie na wykorzystaniu teorii prawdopodobieństwa w pełnej mocy. Twierdzenie Bayesa jest niczym innym jak powtórzeniem klasycznej reguły produktu teorii prawdopodobieństwa:

p(θx|I)=p(θ|I)p(x|θI)=p(x|I)p(θ|xI)

p(x|I)0I

Teraz, jeśli uważasz, że twierdzenie Bayesa jest podejrzane, to logicznie musisz także pomyśleć, że reguła produktu jest również podejrzana. Można znaleźć argumentu dedukcyjnego tutaj , która wywodzi się przepisy dotyczące produktu i Sum, podobne do twierdzenia Coxa. Bardziej wyraźną listę wymaganych założeń można znaleźć tutaj .

O ile mi wiadomo, częste wnioskowanie nie opiera się na zbiorze fundamentów w ramach logicznych. Ponieważ wykorzystuje on aksjomaty prawdopodobieństwa Kołmogorowa, wydaje się, że nie ma żadnego związku między teorią prawdopodobieństwa a wnioskowaniem statystycznym. Nie ma żadnych aksjomatów do wnioskowania częstych, które prowadzą do procedury, którą należy zastosować. Istnieją zasady i metody (maksymalne prawdopodobieństwo, przedziały ufności, wartości p itp.) I działają dobrze, ale zwykle są izolowane i specjalizują się w konkretnych problemach. Myślę, że metody częstokroć najlepiej pozostawić w swoich podstawach, przynajmniej jeśli chodzi o ścisłe ramy logiczne.

1θ

2

Korzystanie z jednolitego przeora jest często wygodnym przybliżeniem, gdy prawdopodobieństwo jest ostre w porównaniu z przejęciem. Czasami nie warto starać się przejść i odpowiednio skonfigurować przeora. Podobnie, nie popełnij błędu, myląc statystyki bayesowskie z MCMC. MCMC jest tylko algorytmem integracji, takim samym jak kwadratre guassian, i w klasie podobnej do aproksymacji Laplace'a. Jest to nieco bardziej przydatne niż kwadratra, ponieważ można ponownie użyć danych wyjściowych algorytmu do wykonania wszystkich całek (tylne środki i wariancje są całkami), i nieco bardziej ogólne niż Laplace, ponieważ nie potrzebujesz dużej próbki lub dobrze zaokrąglony szczyt z tyłu (Laplace jest jednak szybszy).

prawdopodobieństwo prawdopodobieństwa
źródło
3

μ=0) umieszczonych nad współczynnikiem regresji, kodującym wiedzę, że wszystkie rzeczy są równe, preferujemy rozwiązania, w których współczynniki mają mniejsze wartości. Ma to na celu uniknięcie nadmiernego dopasowania zestawu danych poprzez znalezienie rozwiązań, które maksymalizują funkcję celu, ale które nie mają sensu w konkretnym kontekście naszego problemu. W pewnym sensie zapewniają one modelowi statystycznemu „wskazówki” na temat konkretnej dziedziny.

Nie jest to jednak (moim zdaniem) najważniejszy aspekt metodologii bayesowskiej. Metody bayesowskie mają charakter generatywny, ponieważ zapewniają pełną „historię” powstania danych. Dlatego nie są po prostu szukającymi wzorców, ale raczej są w stanie wziąć pod uwagę pełną rzeczywistość sytuacji. Rozważmy na przykład LDA (ukryty przydział Dirichleta), który zapewnia pełną generatywną historię tego, jak powstaje dokument tekstowy, który wygląda mniej więcej tak:

  1. Wybierz mieszankę tematów na podstawie prawdopodobieństwa współistnienia określonych tematów; i
  2. Wybierz zestaw słów ze słownika, zależnie od wybranych tematów.

Zatem model jest dopasowany w oparciu o bardzo specyficzne zrozumienie obiektów w domenie (tutaj dokumenty tekstowe) i sposobu ich utworzenia; w związku z tym informacje, które otrzymujemy, są dostosowane bezpośrednio do naszej problematycznej dziedziny (prawdopodobieństwo podanych słów, prawdopodobieństwo podanych tematów, prawdopodobieństwo dokumentów zawierających tematy i do jakiego stopnia itp.). Fakt, że do tego jest wymagane twierdzenie Bayesa, jest prawie wtórny, stąd mały żart: „Bayes nie byłby Bayesianem, a Chrystus nie byłby chrześcijaninem”.

Krótko mówiąc, modele bayesowskie polegają na rygorystycznym modelowaniu obiektów domenowych przy użyciu rozkładów prawdopodobieństwa; dlatego jesteśmy w stanie zakodować wiedzę, która w innym przypadku nie byłaby dostępna za pomocą prostej techniki dyskryminacyjnej.

William
źródło