Rozumiem, że nie powinniśmy pozwalać temu samemu zestawowi danych, który analizujemy, na określenie / zdefiniowanie wyglądu poprzednich dystrybucji w analizie bayesowskiej. W szczególności niewłaściwe jest definiowanie wcześniejszych rozkładów dla analizy bayesowskiej na podstawie statystyk podsumowujących z tego samego zestawu danych, z którego następnie zamierzasz korzystać z priors, aby pomóc dopasować model.
Czy ktoś zdaje sobie sprawę z zasobów, które konkretnie omawiają to jako nieodpowiednie? Potrzebuję cytatów na ten temat.
Odpowiedzi:
Tak, jest to nieodpowiednie, ponieważ wykorzystuje te same dane dwa razy, co prowadzi do fałszywie nadmiernie pewnych wyników. Jest to znane jako „podwójne zanurzenie”.
Dla odniesienia zacznę od Carlin i Louis (2000). Chociaż „podwójne zanurzenie” było jedną z głównych krytyków Empirical Bayes, Ch. 3, w szczególności sekcja 3.5 tej książki, opisuje sposoby oszacowania odpowiednich przedziałów ufności przy użyciu podejścia EB.
Berger J (2006). \ Przypadek obiektywnej analizy bayesowskiej. "Analiza bayesowska, 1 (3), 385 {402
Bradley P. Carlin, Thomas A. Louis 2000. Bayes i Empirical Bayes metody analizy danych.
Darniede, WF 2011. Bayesowskie metody dla osób zależnych od danych. MS Thesis, Ohio State Univ.
Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2003), Bayesian Data Analyzis, drugie wydanie (Chapman & Hall / CRC Texts in Statistics Science), Chapman and Hall / CRC, 2nd wyd.
źródło
Wykorzystanie danych może jednak mieć sens przy tworzeniu wcześniejszego.
Na przykład w modelowaniu mieszanin patrz Richardson i Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667
Używają średniej i zakresu punktów danych jako hiperparametrów dla wcześniejszego i ma to sens.
Moim zdaniem problem podwójnego korzystania z danych pojawia się, gdy z danych wywodzi się pouczający przeor.
Dopóki sprawdzisz, czy poprzednia dystrybucja jest „płaska” tam, gdzie dystrybucja tylna jest najwyższa, będziesz wiedział, że wcześniejsza dystrybucja nie ma silnego wpływu na wyniki.
źródło