Często argumentuje się, że szkielet bayesowski ma dużą przewagę interpretacyjną (nad częstokroć), ponieważ oblicza prawdopodobieństwo parametru na podstawie danych - zamiast jak w ramy dla częstych. Jak na razie dobrze.p ( x | θ )
Ale całe równanie opiera się na:
wygląda mi trochę podejrzanie z 2 powodów:
W wielu artykułach zwykle używane są nieinformacyjne priory (rozkłady jednolite), a następnie po prostu , więc bayesianie uzyskują taki sam wynik, jak częsterzy - więc w jaki sposób lepiej bayesowskie ramy interpretacja, kiedy prawdopodobieństwo bayesowskie a posteriori i częstokroć są tymi samymi rozkładami? Po prostu daje ten sam wynik.
Korzystając z priory pouczających, otrzymujesz różne wyniki, ale na bayesowski wpływ ma subiektywny przeor, więc całe ma również subiektywny odcień.
Innymi słowy, cały argument będący lepszym w interpretacji niż opiera się na założeniu, że jest rodzajem „prawdziwym”, co zwykle nie jest, to tylko punkt wyjścia, który w jakiś sposób postanowiliśmy uruchomić MCMC, domniemanie, ale nie jest to opis rzeczywistości (myślę, że nie można go zdefiniować).p ( x | θ ) p ( θ )
Jak więc możemy argumentować, że bayesian jest lepszy w interpretacji?
źródło
uninformative or *objective* priors
? Wsubjective
priors są dokładnie informacyjne priors.Odpowiedzi:
Aby dać bardziej wąską odpowiedź niż doskonałe, które już zostały opublikowane, i skupić się na przewadze w interpretacji - Bayesowska interpretacja np. „95% wiarygodnego przedziału” oznacza prawdopodobieństwo, że prawdziwa wartość parametru mieści się w odstęp wynosi 95%. Jedna z dwóch powszechnych częstych interpretacji np. „95% przedziału ufności”, nawet jeśli liczbowo oba są identyczne, polega na tym, że w dłuższej perspektywie, gdybyśmy wykonywali tę procedurę wiele razy, częstotliwość, z jaką interwał obejmowałby rzeczywistą wartość zbieżną do 95%. Pierwsza jest intuicyjna, druga nie. Spróbuj wytłumaczyć menedżerowi, że nie możesz powiedzieć „Prawdopodobieństwo, że nasze panele słoneczne ulegną degradacji o mniej niż 20% w ciągu 25 lat wynosi 95%”, ale zamiast tego musi powiedzieć „
Alternatywną interpretacją dla częstokrzyskich byłoby: „Przed wygenerowaniem danych istniała 5% szansa, że przedział, który obliczę za pomocą ustalonej przeze mnie procedury, spadnie całkowicie poniżej rzeczywistej wartości parametru. Jednak teraz, kiedy już zgromadziliśmy dane, nie możemy wypowiedzieć takiego stwierdzenia, ponieważ nie jesteśmy subiektywistami, a prawdopodobieństwo wynosi 0 lub 1, w zależności od tego, czy rzeczywiście leży ono poniżej rzeczywistej wartości parametru, czy też nie. ” Pomoże to audytorom i przy obliczaniu rezerwy gwarancyjnej. (Właściwie uważam tę definicję za rozsądną, choć zwykle nieużyteczną; nie jest też łatwa do zrozumienia intuicyjnie, a zwłaszcza jeśli nie jesteś statystyką).
Żadna interpretacja częstokrzyska nie jest intuicyjna. Wersja bayesowska to. Stąd „duża przewaga w interpretacji”, jaką zapewnia podejście bayesowskie.
źródło
Zauważ, że informacyjne priory niekoniecznie są subiektywne, na przykład nie uważałbym za subiektywną wiedzę, aby twierdzić, że wcześniejsza wiedza o pewnym systemie fizycznym powinna być niezależna od jednostek miar (ponieważ są one zasadniczo arbitralne), prowadząc do idei grup transformacji i „minimalnie informacyjne” priory.
Drugą stroną ignorowania subiektywnej wiedzy jest to, że twój system może nie być optymalny, ponieważ ignorujesz wiedzę ekspercką, więc subiektywność niekoniecznie jest złą rzeczą. Na przykład w zwykłym problemie „wnioskowania o monetę”, często używanym jako motywujący przykład, będziesz uczyć się stosunkowo powoli z jednolitym wyprzedzeniem w miarę pojawiania się danych. Ale czy wszystkie wielkości stronniczości są równie prawdopodobne uzasadnionym założeniem? Nie, łatwo jest zrobić nieco tendencyjną monetę lub całkowicie całkowicie tendencyjną (dwie głowy lub dwie opowieści), więc jeśli wykorzystamy to założenie w naszej analizie, poprzez subiektywne uprzednie, potrzebujemy mniej danych, aby zidentyfikować stronniczość faktycznie jest.
Częste analizy często zawierają również subiektywne elementy (na przykład decyzja o odrzuceniu hipotezy zerowej, jeśli wartość p jest mniejsza niż 0,05, nie ma logicznego przymusu, aby to zrobić, jest to jedynie tradycja, która okazała się przydatna). Zaletą podejścia bayesowskiego jest to, że subiektywność jest wyraźnie wyrażona w obliczeniach, zamiast pozostawiać to w domniemaniu.
Na koniec dnia chodzi o „konie na kursy”, powinieneś mieć oba zestawy narzędzi w swoim zestawie narzędzi i być przygotowanym do użycia najlepszego narzędzia do danego zadania.
źródło
Bayesowskie ramy mają dużą przewagę nad częstymi, ponieważ nie zależą od posiadania „kryształowej kuli” pod względem znajomości prawidłowych założeń dystrybucyjnych. Metody bayesowskie zależą od wykorzystania posiadanych informacji i umiejętności kodowania tych informacji w rozkład prawdopodobieństwa.
Stosowanie metod bayesowskich polega w zasadzie na wykorzystaniu teorii prawdopodobieństwa w pełnej mocy. Twierdzenie Bayesa jest niczym innym jak powtórzeniem klasycznej reguły produktu teorii prawdopodobieństwa:
Teraz, jeśli uważasz, że twierdzenie Bayesa jest podejrzane, to logicznie musisz także pomyśleć, że reguła produktu jest również podejrzana. Można znaleźć argumentu dedukcyjnego tutaj , która wywodzi się przepisy dotyczące produktu i Sum, podobne do twierdzenia Coxa. Bardziej wyraźną listę wymaganych założeń można znaleźć tutaj .
O ile mi wiadomo, częste wnioskowanie nie opiera się na zbiorze fundamentów w ramach logicznych. Ponieważ wykorzystuje on aksjomaty prawdopodobieństwa Kołmogorowa, wydaje się, że nie ma żadnego związku między teorią prawdopodobieństwa a wnioskowaniem statystycznym. Nie ma żadnych aksjomatów do wnioskowania częstych, które prowadzą do procedury, którą należy zastosować. Istnieją zasady i metody (maksymalne prawdopodobieństwo, przedziały ufności, wartości p itp.) I działają dobrze, ale zwykle są izolowane i specjalizują się w konkretnych problemach. Myślę, że metody częstokroć najlepiej pozostawić w swoich podstawach, przynajmniej jeśli chodzi o ścisłe ramy logiczne.
Korzystanie z jednolitego przeora jest często wygodnym przybliżeniem, gdy prawdopodobieństwo jest ostre w porównaniu z przejęciem. Czasami nie warto starać się przejść i odpowiednio skonfigurować przeora. Podobnie, nie popełnij błędu, myląc statystyki bayesowskie z MCMC. MCMC jest tylko algorytmem integracji, takim samym jak kwadratre guassian, i w klasie podobnej do aproksymacji Laplace'a. Jest to nieco bardziej przydatne niż kwadratra, ponieważ można ponownie użyć danych wyjściowych algorytmu do wykonania wszystkich całek (tylne środki i wariancje są całkami), i nieco bardziej ogólne niż Laplace, ponieważ nie potrzebujesz dużej próbki lub dobrze zaokrąglony szczyt z tyłu (Laplace jest jednak szybszy).
źródło
Nie jest to jednak (moim zdaniem) najważniejszy aspekt metodologii bayesowskiej. Metody bayesowskie mają charakter generatywny, ponieważ zapewniają pełną „historię” powstania danych. Dlatego nie są po prostu szukającymi wzorców, ale raczej są w stanie wziąć pod uwagę pełną rzeczywistość sytuacji. Rozważmy na przykład LDA (ukryty przydział Dirichleta), który zapewnia pełną generatywną historię tego, jak powstaje dokument tekstowy, który wygląda mniej więcej tak:
Zatem model jest dopasowany w oparciu o bardzo specyficzne zrozumienie obiektów w domenie (tutaj dokumenty tekstowe) i sposobu ich utworzenia; w związku z tym informacje, które otrzymujemy, są dostosowane bezpośrednio do naszej problematycznej dziedziny (prawdopodobieństwo podanych słów, prawdopodobieństwo podanych tematów, prawdopodobieństwo dokumentów zawierających tematy i do jakiego stopnia itp.). Fakt, że do tego jest wymagane twierdzenie Bayesa, jest prawie wtórny, stąd mały żart: „Bayes nie byłby Bayesianem, a Chrystus nie byłby chrześcijaninem”.
Krótko mówiąc, modele bayesowskie polegają na rygorystycznym modelowaniu obiektów domenowych przy użyciu rozkładów prawdopodobieństwa; dlatego jesteśmy w stanie zakodować wiedzę, która w innym przypadku nie byłaby dostępna za pomocą prostej techniki dyskryminacyjnej.
źródło