Zapobieganie awariom próbkowania wygładzonego Pareto (PSIS-LOO)

10

Niedawno zacząłem używać wygładzania ważności Pareto z pominięciem krzyżowej walidacji (PSIS-LOO), opisanej w tych artykułach:

  • Vehtari, A., i Gelman, A. (2015). Pareto wygładził próbkowanie ważności. prefiks arXiv ( link ).
  • Vehicletari, A., Gelman, A., i Gabry, J. (2016). Praktyczna ocena modelu Bayesa przy użyciu krzyżowej weryfikacji typu „out-one-out” i WAIC. prefiks arXiv ( link )

Jest to bardzo kuszące podejście do oceny modelu poza próbą, ponieważ pozwala wykonać LOO-CV za pomocą jednego przebiegu MCMC i jest rzekomo lepsze niż istniejące kryteria informacyjne, takie jak WAIC.

PSIS-LOO posiada diagnostykę, która informuje, czy przybliżenie jest wiarygodne, a mianowicie podaje szacunkowe wykładniki rozkładów Pareto dopasowanych do ogonów rozkładów empirycznych ważeń ważenia (jedna waga na punkt danych). Krótko mówiąc, jeśli szacowana waga , mogą się zdarzyć złe rzeczy.k^ik^i0.7

Niestety, stwierdziłem, że stosując tę ​​metodę do mojego problemu, w przypadku większości interesujących modeli uważam, że duża część k^i0.7 . Nic dziwnego, że niektóre z raportowanych prawdopodobieństw logów LOO były w oczywisty sposób bezsensowne (w porównaniu z innymi zestawami danych). Jako podwójną kontrolę przeprowadziłem tradycyjną (i czasochłonną) 10-krotną walidację krzyżową, stwierdzając, że rzeczywiście w powyższym przypadku PSIS-LOO dawał strasznie złe wyniki (z drugiej strony, wyniki były bardzo dobrze zgodne z 10 -fold CV dla modeli, w których wszystkie k^i0.7 ). Dla przypomnienia korzystam z implementacji MATLAB PSIS-LOO firmy Aki Vehtari.

Może mam po prostu bardzo pecha, ponieważ mój obecny i pierwszy problem, w którym stosuję tę metodę, jest „trudny” dla PSIS-LOO, ale podejrzewam, że ten przypadek może być stosunkowo częsty. W przypadku takich przypadków, jak mój, papier Vehicle, Carman & Gabry mówi po prostu:

Nawet jeśli oszacowanie PSIS ma skończoną wariancję, gdy , użytkownik powinien rozważyć próbkowanie bezpośrednio z dla problematycznego , użyj -fold cross- sprawdzanie poprawności lub użyj bardziej niezawodnego modelu.k^>0.7p(θs|yi)ik

Są to oczywiste, ale niezbyt idealne rozwiązania, ponieważ są one czasochłonne lub wymagają dodatkowego majstrowania (doceniam, że MCMC i ocena modelu polegają na majstrowaniu, ale im mniej tym lepiej).

Czy istnieje jakaś ogólna metoda, którą możemy zastosować wcześniej, aby zapobiec awarii PSIS-LOO? Mam kilka wstępnych pomysłów, ale zastanawiam się, czy istnieje już rozwiązanie empiryczne, które ludzie przyjęli.

Lacerbi
źródło

Odpowiedzi:

8

Dla przypomnienia wysłałem podobne pytanie do listy mailingowej użytkowników Stana , którą można znaleźć tutaj . Odpowiedział mi jeden z autorów oryginalnego artykułu PSIS-LOO i inni autorzy Stana. Poniżej znajduje się moje osobiste podsumowanie.

Krótka odpowiedź brzmi: nie ma znanych ogólnych metod zapobiegania awarii PSIS-LOO. Jeśli PSIS-LOO zawiedzie, dzieje się tak zwykle dlatego, że w modelu występują problemy , a naprawę należy koniecznie pozostawić użytkownikowi.

W szczególności przyczyną niepowodzenia PSIS-LOO jest zwykle to, że jeden lub więcej rozkładów LOO jest przesuniętych i / lub szerszych niż pełny tylny, prawdopodobnie z powodu wpływowych obserwacji, a rozkład próbkowania ważności spada do jednego lub kilku punktów.

Myślałem, że możesz spróbować zastosować jakąś formę równoległego podejścia do temperowania z tyłu, aby rozwiązać ten problem. Pomysł niekoniecznie jest zły, ale wskazano mi, że:

  • podręcznikowe odpuszczanie w dalszym ciągu wymagałoby wielu przypadkowych przypadków, aby znaleźć odpowiedni poziom (poziomy) temperatury, ponieważ nie ma oczywistego ani znanego sposobu, aby to zrobić (nawiasem mówiąc, z tego powodu Stan nie obejmuje równoległego temperowania);
  • jeśli użyjesz więcej niż dwóch poziomów temperatur (ponieważ może być wymagane solidne podejście), ostateczny koszt obliczeniowy zbliża się do kosztu K-krotnej walidacji krzyżowej lub uruchomienia MCMC na problematycznych dystrybucjach LOO.

Krótko mówiąc, jeśli PSIS-LOO zawiedzie, wydaje się, że trudno jest znaleźć metodę tak solidną i ogólną jak inne proste łatki; dlatego Vehicletari, Gelman i Gabry zasugerowali te metody zgodnie z cytatem zamieszczonym w moim pierwotnym pytaniu.

Lacerbi
źródło