Przeglądałem dokumentację Stana, którą można pobrać stąd . Byłem szczególnie zainteresowany ich wdrożeniem diagnostyki Gelmana-Rubina. Oryginalny artykuł Gelman i Rubin (1992) definiuje potencjalny współczynnik redukcji skali (PSRF) w następujący sposób:
Niech będą -tym łańcuchem Markowa, z którego pobrano próbkę, i niech będzie próbka z całych niezależnych łańcuchów. Niech będzie średnią z tego łańcucha, a będzie średnią ogólną. Zdefiniuj,
Określić V = ( N - 1 PSRF szacuje się na √
Dokumentacja Stan na stronie 349 ignoruje termin z usuwa, a także ( M + 1 ) / M mnożnikowy okresie. To jest ich formuła,
Estymatorem wariancji jest Na koniec, możliwość statystyczne zmniejszenie skali jest określony przez R = √
Z tego, co widziałem, nie zawierają one odniesienia do tej zmiany formuły i nie dyskutują o tym. Zwykle nie jest zbyt duże i często może być tak niskie, jak 2 , więc ( M + 1 ) / M nie należy ignorować, nawet jeśli wartość d f można aproksymować za pomocą 1.
Skąd więc ta formuła?
EDYCJA: Znalazłem częściową odpowiedź na pytanie „ skąd pochodzi ta formuła? ”, Ponieważ książka Bayesian Data Analysis autorstwa Gelmana, Carlina, Sterna i Rubina (wydanie drugie) ma dokładnie tę samą formułę. Jednak książka nie wyjaśnia, w jaki sposób / dlaczego uzasadnione jest ignorowanie tych terminów?
źródło
Odpowiedzi:
Gelman & Rubin (1992) also had the term with df as df/(df-2). Brooks & Gelman (1998) have a section describing why this df corretion is incorrect and define (df+3)/(df+1). The paragraph before Section 3.1 in Brooks & Gelman (1998) explains why (d+3)/(d+1) can be dropped.
It seems your source for the equations was something post Brooks & Gelman (1998) as you had (d+3)/(d+1) there and Gelman & Rubin (1992) had df/df(-2). Otherwise Gelman & Rubin (1992) and Brooks & Gelman (1998) have equivalent equations (with slightly different notations and some terms are arranged differently). BDA2 (Gelman, et al., 2003) doesn't have anymore termsσ^+Wm−n−1mn . BDA3 (Gelman et al., 2003) and Stan introduced split chains version.
My interpretation of the papers and experiences using different versions ofR^ is that the terms which have been eventually dropped can be ignored when n is large, even when m is not. I also vaguely remember discussing this with Andrew Gelman years ago, but if you want to be certain of the history, you should ask him.
I really do hope that this is not often the case. In cases where you want to use split-R^ convergence diagnostic, you should use at least 4 chains split and thus have M=8. You may use less chains, if you already know that in your specific cases the convergence and mixing is fast.
Additional reference:
źródło