Czy przeprowadzono badania na dużą skalę metod MCMC, które porównują wydajność kilku różnych algorytmów w zestawie gęstości testowych? Mam na myśli coś równoważnego z tekstem Riosa i Sahinidisa (2013), który jest dokładnym porównaniem dużej liczby optymalizatorów czarnej skrzynki bez pochodnych na kilku klasach funkcji testowych.
W przypadku MCMC wydajność można oszacować np. W efektywnej liczbie próbek (ESS) na ocenę gęstości lub w innym odpowiednim mierniku.
Kilka komentarzy:
Doceniam, że wydajność będzie silnie zależeć od szczegółów docelowego pliku pdf, ale podobny (prawdopodobnie nie identyczny) argument ma na celu optymalizację, a mimo to istnieje mnóstwo funkcji testów porównawczych, pakietów, konkursów, dokumentów itp., Które dotyczą optymalizacji testów porównawczych algorytmy.
Prawdą jest również, że MCMC różni się od optymalizacji tym, że użytkownik wymaga znacznie więcej uwagi i strojenia. Niemniej jednak istnieje obecnie kilka metod MCMC, które wymagają niewielkiego lub żadnego strojenia: metody, które dostosowują się w fazie wypalania, podczas próbkowania lub metody wielostanowe (zwane także zestawem ) (takie jak Emcee ), które ewoluują i wchodzą w interakcje z wieloma łańcuchami informacje z innych łańcuchów, które pomogą w pobieraniu próbek.
Szczególnie interesuje mnie porównanie metod standardowych i wielostanowych (aka ensemble). Definicja stanu wielostanowego znajduje się w rozdziale 30.6 książki MacKay :
- To pytanie pochodzi stąd .
Aktualizacja
- Aby zapoznać się z interesującym podejściem do wielostanowych metod aka ensemble, zobacz ten post na blogu Boba Carpentera na blogu Gelmana i mój komentarz odnoszący się do tego postu CV.
źródło
Zgadzam się z twoją oceną, że nie istnieją kompleksowe poziomy odniesienia dla metod MCMC. Wynika to z faktu, że każdy próbnik MCMC ma zalety i wady i jest wyjątkowo specyficzny dla konkretnego problemu.
W typowym ustawieniu modelowania bayesowskiego można uruchomić ten sam sampler o różnych szybkościach mieszania, gdy dane są różne. Powiedziałbym do tego stopnia, że jeśli w przyszłości pojawi się wszechstronne badanie porównawcze różnych próbników MCMC, nie ufam, że wyniki będą miały zastosowanie poza pokazanymi przykładami.
Jeśli chodzi o wykorzystanie ESS do oceny jakości próbkowania, warto wspomnieć, że ESS zależy od ilości, którą należy oszacować na podstawie próby. Jeśli chcesz znaleźć średnią próbki, uzyskany ESS będzie inny niż jeśli chcesz oszacować 25. kwantyl. To powiedziawszy, jeśli ustalona jest kwota odsetek, ESS jest rozsądnym sposobem porównywania próbników. Może lepszym pomysłem jest ESS na jednostkę czasu.
Jedną z wad ESS jest to, że w przypadku problemów estymacji wielowymiarowej ESS zwraca efektywną wielkość próby dla każdego komponentu osobno, ignorując wszystkie korelacje krzyżowe w procesie estymacji. W tym dokumencie niedawno zaproponowano wielowymiarowy ESS i zaimplementowano go w
R
pakieciemcmcse
za pomocą funkcjimultiESS
. Nie jest jasne, w jaki sposób ta metoda porównuje się do ESScoda
pakietu, ale na samym początku wydaje się bardziej rozsądna niż jednoznaczne metody ESS.źródło