Jestem stosunkowo nowy w statystyce bayesowskiej i ostatnio korzystam z JAGS do tworzenia hierarchicznych modeli bayesowskich na różnych zestawach danych. Chociaż jestem bardzo zadowolony z wyników (w porównaniu ze standardowymi modelami glm), muszę wyjaśnić niestatystom, czym różni się od standardowych modeli statystycznych. W szczególności chciałbym zilustrować, dlaczego i kiedy HBM działają lepiej niż prostsze modele.
Przydałaby się analogia, szczególnie ilustrująca niektóre kluczowe elementy:
- wiele poziomów heterogeniczności
- potrzeba większej liczby obliczeń w celu dopasowania do modelu
- możliwość wydobywania większej liczby „sygnałów” z tych samych danych
Zauważ, że odpowiedź powinna być naprawdę pouczającą analogią do osób niebędących statystykami, a nie łatwym i przyjemnym do naśladowania przykładem.
bayesian
hierarchical-bayesian
nassimhddd
źródło
źródło
Odpowiedzi:
Chciałbym zilustrować przykład modelowania odnoszącego się do częstości występowania raka (jak w Johnson and Albert 1999). Dotknie pierwszego i trzeciego elementu twojego zainteresowania.Ni xi θi
Ni .θi
θi θi xi∼Bin(Ni,θi)
Pełny rozkład połączeń byłby wtedy p ( D , θ , η | N ) = p ( η ) ∏ N i = 1 B i n ( x i | N i , θ i ) B e t a ( θ i | η ) gdzie η = ( a , b ) . Musimy wnioskować ηθi∼Beta(a,b)
p(D,θ,η|N)=p(η)∏Ni=1Bin(xi|Ni,θi)Beta(θi|η) η=(a,b) η z danych. Jeśli jest on ograniczony do stałej, informacje nie będą przepływać między będą warunkowo niezależne. Lecz traktując η jako nieznane, pozwalamy miastom o mniejszej ilości danych zapożyczać siłę statystyczną od miast o większej liczbie danych.
Główną ideą jest bardziej bayesowskie i ustawienie priorów na priory, aby modelować niepewność w hiperparametrach. Umożliwia to przepływ wpływów między θ i w tym przykładzie.θi η
θi
Problemem jest więc przewidywanie zachorowań na raka w różnych miastach. Że mamy dane o liczbie osób w różnych miastach i liczba osób, które zmarły na raka x I . Powiedzmy, że chcemy oszacować wskaźniki raka θ i . Istnieją różne sposoby ich modelowania i kiedy widzimy problemy z każdym z nich. Zobaczymy, jak heirachiczne modelowanie Bayesa może rozwiązać pewien problem. 1. Jednym ze sposobów jest dokonanie oceny osobno, ale cierpimy na rzadki problem z danymi i byłoby to niedoszacowanie stawek, jak dla niskich N i
2. Jednym z bardziej podejście do zarządzania danymi nielicznych problemu byłoby użyć tego samego dla wszystkich miast i związać parametrów, ale jest to również bardzo silne założenie. 3. Więc co można zrobić, to wszystkie θ i „y są podobne w pewien sposób, ale również z miastem konkretnych odmian. Więc można modelować w taki sposób, że wszystkie θ I „s są rysowane od wspólnej dystrybucji. Powiedz x i ∼ B i n ( N i , θ i ) i θ i ∼ B e t a ( a ,
źródło
Kiedy jesteś chory, obserwujesz objawy, ale chcesz diagnozy. Jeśli nie jesteś lekarzem, myślę, że możesz po prostu znaleźć diagnozę, która najlepiej pasuje do twoich objawów. Ale Ph HBM zrobiłby to spojrzeć na twoje objawy, ich względne znaczenie, jak pasują / odnoszą się do twoich wcześniejszych problemów zdrowotnych, jednego z twojej rodziny, obecnych powszechnych chorób i warunków środowiskowych, twojej słabości, twojej siły ... a następnie połączy te rzeczy, wykorzystując swoją wiedzę, aby zaktualizować to, co zgaduje o twoich stanach zdrowia i poda bardziej prawdopodobną diagnozę.
Jestem pewien, że ta analogia wkrótce osiągnie swój limit, ale myślę, że może dać dobrą intuicję, czego można oczekiwać od HBM, prawda? (i nie znalazłem lepszego)
źródło