Czy dane mogą dyktować priorytety, a następnie uruchomić model przy użyciu tych priorytetów? (np. priory oparte na danych z tego samego zestawu danych)

9

Rozumiem, że nie powinniśmy pozwalać temu samemu zestawowi danych, który analizujemy, na określenie / zdefiniowanie wyglądu poprzednich dystrybucji w analizie bayesowskiej. W szczególności niewłaściwe jest definiowanie wcześniejszych rozkładów dla analizy bayesowskiej na podstawie statystyk podsumowujących z tego samego zestawu danych, z którego następnie zamierzasz korzystać z priors, aby pomóc dopasować model.

Czy ktoś zdaje sobie sprawę z zasobów, które konkretnie omawiają to jako nieodpowiednie? Potrzebuję cytatów na ten temat.

Sarah
źródło

Odpowiedzi:

11

Tak, jest to nieodpowiednie, ponieważ wykorzystuje te same dane dwa razy, co prowadzi do fałszywie nadmiernie pewnych wyników. Jest to znane jako „podwójne zanurzenie”.

Dla odniesienia zacznę od Carlin i Louis (2000). Chociaż „podwójne zanurzenie” było jedną z głównych krytyków Empirical Bayes, Ch. 3, w szczególności sekcja 3.5 tej książki, opisuje sposoby oszacowania odpowiednich przedziałów ufności przy użyciu podejścia EB.

Berger J (2006). \ Przypadek obiektywnej analizy bayesowskiej. "Analiza bayesowska, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Bayes i Empirical Bayes metody analizy danych.

Darniede, WF 2011. Bayesowskie metody dla osób zależnych od danych. MS Thesis, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2003), Bayesian Data Analyzis, drugie wydanie (Chapman & Hall / CRC Texts in Statistics Science), Chapman and Hall / CRC, 2nd wyd.

David LeBauer
źródło
@ Sarah Zarejestruj swoje konto, aby móc odzyskać swoje pytanie. Wystarczy odwiedzić ten adres: stats.stackexchange.com/users/login
1

Wykorzystanie danych może jednak mieć sens przy tworzeniu wcześniejszego.

Na przykład w modelowaniu mieszanin patrz Richardson i Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Używają średniej i zakresu punktów danych jako hiperparametrów dla wcześniejszego i ma to sens.

Moim zdaniem problem podwójnego korzystania z danych pojawia się, gdy z danych wywodzi się pouczający przeor.

Dopóki sprawdzisz, czy poprzednia dystrybucja jest „płaska” tam, gdzie dystrybucja tylna jest najwyższa, będziesz wiedział, że wcześniejsza dystrybucja nie ma silnego wpływu na wyniki.

Pierre
źródło
Wykorzystanie danych do zbudowania przeora nie może mieć miejsca w paradygmacie bayesowskim. Z punktu widzenia bayesowskiego nie ma to więc sensu, a zwykła walidacja procedur bayesowskich nie ma zastosowania. Wynikające z tego wnioskowanie może być całkowicie poprawne, ale należy to wykazać na podstawie pierwszych zasad. (Richardson i Green używają tak zwanych empirycznych Bayesów. To nie jest procedura bayesowska.)
Xi'an
Chociaż nie ma to sensu w paradygmacie bayesowskim, czasami trudno jest narysować linię podziału między tym, co dane, a tym, co wcześniej. Zobacz moją odpowiedź na stats.stackexchange.com/questions/112451/…
kjetil b halvorsen