Dopasowuję Bayesian HLM w JAGS przy użyciu k-krotnej walidacji krzyżowej (k = 5). Chciałbym wiedzieć, czy szacunki parametru są stabilne we wszystkich fałdach. Jak najlepiej to zrobić?
Jednym z pomysłów jest znalezienie różnic w tylnej stronie i sprawdzenie, czy 0 jest w 95% CI różnicy. Innymi słowy, wynosi 0 w 95% przedziale (a następnie powtórz dla wszystkich par ).
Innym pomysłem jest traktowanie tylnych z każdej zakładki jako różnych łańcuchów MCMC i obliczenie Gelmana (Potential Scale Reduction Factor) dla tych pseudo-łańcuchów.
Czy jedna z nich jest lepsza i czy istnieją alternatywy?
bayesian
cross-validation
Jack Tanner
źródło
źródło
Odpowiedzi:
Nie wiem, czy to kwalifikuje się jako komentarz czy odpowiedź. Stawiam tutaj, ponieważ wydaje mi się, że to odpowiedź.
W k-krotnej walidacji krzyżowej dzielisz dane na k grup. Jeśli omawiasz nawet „podstawy”, to losowo wybierasz członków dla każdego z k przedziałów.
Kiedy mówię o danych, myślę o każdym wierszu jako próbce, a każdej kolumnie o wymiarze. Jestem przyzwyczajony do używania różnych metod określania znaczenia zmiennej, ważności kolumny.
Co jeśli, jako ćwiczenie myślowe, przypadkowo odszedłeś od munduru „podręcznika” i ustaliłeś, które wiersze są ważne? Może informują pojedynczą zmienną na raz, ale może informują więcej. Czy są jakieś wiersze, które są mniej ważne niż inne? Może wiele punktów ma charakter informacyjny, a może niewiele.
Znając znaczenie zmiennej, być może możesz podzielić je według ważności. Może mógłbyś zrobić jeden pojemnik z najważniejszymi próbkami. To może zdefiniować rozmiar twojego „k”. W ten sposób określasz „najbardziej informacyjny” k-segment i porównujesz go z innymi oraz z najmniej informacyjnym.
To może dać ci wyobrażenie o maksymalnej zmienności parametrów twojego modelu. To tylko jedna forma.
Drugim sposobem podziału k-tego segmentu jest wielkość i kierunek wpływu. Możesz więc umieścić próbki, które kołyszą parametr lub parametry w jednym kierunku, w jednym wiadrze i umieścić próbki, które kołyszą ten sam parametr lub parametry w przeciwnym kierunku w innym wiadrze.
Zmienność parametrów w tej formie może poszerzyć zakres zmiennych, w oparciu nie o gęstość informacji, ale o rasę informacji.
Powodzenia.
źródło
To może nie być pełna odpowiedź, ale jeśli 0 nie jest w 95% CI dla kilku różnic, całkiem bezpiecznie jest powiedzieć, że nie są one identyczne na poziomie 0,05.
źródło