Co to są kontrole predykcyjne późniejsze i co czyni je przydatnymi?

33

Rozumiem, czym jest tylna dystrybucja predykcyjna i czytałem o późniejszych kontrolach predykcyjnych , chociaż dla mnie nie jest jeszcze jasne, co robi.

  1. Czym dokładnie jest tylna kontrola predykcyjna?
  2. Dlaczego niektórzy autorzy twierdzą, że przeprowadzanie późniejszych kontroli predykcyjnych „wykorzystuje dane dwukrotnie” i nie powinno być nadużywane? (a nawet, że nie jest to Bayesian)? (np. zobacz to lub tamto )
  3. Do czego ta kontrola jest szczególnie przydatna? Czy naprawdę można go użyć do wyboru modelu? (np. czy bierze pod uwagę zarówno kondycję, jak i złożoność modelu?)
Amelio Vazquez-Reina
źródło

Odpowiedzi:

36

Wcześniejsze kontrole predykcyjne to, po prostu, „symulowanie replikowanych danych w dopasowanym modelu, a następnie porównywanie ich z danymi obserwowanymi” ( Gelman i Hill, 2007, s. 158 ). Tak więc, wykorzystujesz przewidywanie z tyłu, aby „szukać systematycznych rozbieżności między danymi rzeczywistymi a symulowanymi” ( Gelman i in. 2004, s. 169 ).

Argument o „dwukrotnym użyciu danych” polega na tym, że używasz swoich danych do oszacowania modelu, a następnie do sprawdzenia, czy model pasuje do danych, podczas gdy ogólnie jest to zły pomysł i lepiej byłoby zweryfikować swój model na danych zewnętrznych , który nie został wykorzystany do oszacowania.

Późniejsze kontrole predykcyjne są pomocne w ocenie, czy model daje „prawidłowe” prognozy dotyczące rzeczywistości - czy pasują one do obserwowanych danych, czy nie. Jest to pomocna faza budowy i sprawdzania modelu. Nie daje jednoznacznej odpowiedzi na pytanie, czy Twój model jest „ok”, czy „lepszy” niż inny model, może jednak pomóc sprawdzić, czy Twój model ma sens.

Jest to dobrze opisane w LaplaceDemon winieta wnioskowanie bayesowskie :

Porównanie rozkładu predykcyjnego z obserwowanymi danymi jest ogólnie określane jako „tylna kontrola predykcyjna”. Ten rodzaj kontroli obejmuje niepewność związaną z szacowanymi parametrami modelu, w przeciwieństwie do statystyk częstych. Yyrepy

Wcześniejsze kontrole predykcyjne (poprzez rozkład predykcyjny) wiążą się z podwójnym wykorzystaniem danych, co narusza zasadę prawdopodobieństwa. Argumentowano jednak za późniejszymi kontrolami predykcyjnymi, pod warunkiem, że użycie jest ograniczone do miar rozbieżności w badaniu adekwatności modelu, a nie do porównania i wnioskowania modelu (Meng 1994).

Gelman zaleca na najbardziej podstawowym poziomie, aby porównać z , szukając jakichkolwiek systematycznych różnic, które mogłyby wskazywać na potencjalne wady modelu (Gelman i in. 2004, s. 159). Często najpierw zaleca się porównanie wykresów graficznych, takich jak rozkład i . y y y repyrepyyyrep

Tim
źródło
3
jeśli chodzi o to, że PPC mogą nie być Bayesowskie, zauważ, że Gelman dużo dyskutuje o tym, czym dokładnie analiza danych bayesowskich / bayesowskich jest Gelman i Shalizi
N Brouwer,
2
Gelman i Shalizi omawiają, czym jest analiza danych bayesowskich według ich punktu widzenia. Istnieje wiele różnych punktów widzenia, wszystkie dobrze umotywowane - od Jeffreysa po Savage'a, od de Finetti po Gaifmana, Scotta i Kraussa i Hailperina , nie mówiąc już o poglądach różniących się jeszcze bardziej, jak Dempster-Shafer .
pglpm