tło
Projektuję symulację Monte Carlo, która łączy dane wyjściowe serii modeli i chcę mieć pewność, że symulacja pozwoli mi wysunąć uzasadnione twierdzenia dotyczące prawdopodobieństwa symulowanego wyniku i dokładności tego oszacowania prawdopodobieństwa.
Symulacja pozwoli ustalić prawdopodobieństwo, że ława przysięgłych z określonej społeczności skaza określonego oskarżonego. Oto kroki symulacji:
Korzystając z istniejących danych, wygeneruj logistyczny model prawdopodobieństwa ( M ) poprzez cofnięcie „pierwszego głosowania przysięgłego” na predyktory demograficzne.
Użyj metod Monte Carlo, aby zasymulować 1000 wersji M (tj. 1000 wersji współczynników dla parametrów modelu).
Wybierz jedną z 1000 wersji modelu ( M i ).
Empanel 1000 jurorów poprzez losowe wybranie 1000 zestawów 12 „jurorów” ze „społeczności” ( C ) osób o określonych rozkładach cech demograficznych.
Deterministycznie obliczyć prawdopodobieństwo pierwszej turze głosowania winny za każdego jurora wykorzystaniem M í .
Renderuj prawdopodobny głos każdego „jurora” na głos decydujący (na podstawie tego, czy jest on większy, czy mniejszy niż losowo wybrana wartość między 0-1).
Określ „ostateczny głos” każdego „jury” przy użyciu modelu (uzyskanego na podstawie danych empirycznych) prawdopodobieństwa skazania przez jury, pod warunkiem proporcji jurorów głosujących za skazaniem w pierwszym głosowaniu.
Przechowuj odsetek wyroków winy dla 1000 ławy przysięgłych ( PG i ).
Powtórzyć etapy 3-8 dla każdej z wersji z 1000 symulowanych z M .
Obliczyć średnią wartość PG i raport, który jako punkt szacunków prawdopodobieństwa skazania C .
Zidentyfikuj wartości percentyla 2,5 i 97,5 dla PG i zgłoś to jako przedział ufności 0,95.
Obecnie używam 1000 ławników przysięgłych i 1000 ławników przy teorii, że 1000 losów czerpie z rozkładu prawdopodobieństwa - cech demograficznych C lub wersji M - wypełni ten rozkład.
pytania
Czy pozwoli mi to dokładnie określić dokładność mojego oszacowania? Jeśli tak, to ilu sędziów muszę empanelować dla każdego obliczenia PG i, aby pokryć rozkład prawdopodobieństwa C (więc unikam błędu selekcji); czy mogę użyć mniej niż 1000?
Dziękuję bardzo za wszelką pomoc!
Odpowiedzi:
Istnieje jedno ogólne i „we wszechświecie” kryterium dobroci Monte Carlo - konwergencja.
Trzymaj się jednej litery M i sprawdź, jak PG zachowuje się z liczbą przysięgłych - powinna się zbiegać, więc pokaże ci liczbę powtórzeń, dla których będziesz mieć rozsądną (dla twojej aplikacji) liczbę znaczących cyfr. Powtórz ten test porównawczy dla kilku innych M, aby upewnić się, że nie masz szczęścia z wyborem M, a następnie przejdź do całej symulacji.
źródło
Wydaje mi się, że problemem jest to, czy model jest zbyt skomplikowany, aby można było na niego uważać bez użycia symulacji Monte Carlo.
Jeśli model jest względnie prosty, powinno być możliwe przyjrzenie się mu za pomocą statystyk Conventioanl i znalezienie rozwiązania zadawanego pytania, bez wielokrotnego uruchamiania modelu. Jest to trochę przesadne uproszczenie, ale jeśli wszystko, co zrobił Twój model, polegało na tworzeniu punktów w oparciu o rozkład normalny, możesz łatwo uzyskać odpowiedzi, których szukasz. Oczywiście, jeśli model jest taki prosty, prawdopodobnie nie będziesz musiał wykonać symulacji Monte Carlo, aby znaleźć odpowiedzi.
Jeśli problem jest złożony i nie można go podzielić na bardziej elementarny, Monte-Carlo jest właściwym typem modelu do użycia, ale nie sądzę, aby istniał sposób zdefiniowania granic ufności bez uruchomienia modelu. Ostatecznie, aby uzyskać opisany typ granic ufności, model musiałby być uruchamiany wiele razy, rozkład prawdopodobieństwa musiałby być dopasowany do wyników, a stamtąd można by określić granice zaufania. Jednym z wyzwań związanych z symulacją Monte-Carlo jest to, że modele dają dobre i regularne odpowiedzi dla rozkładów w średnim zakresie, ale ogony często dają znacznie więcej zmiennych wyników, co ostatecznie oznacza więcej przebiegów w celu zdefiniowania kształtu wyników na poziomie 2,5% i 97,5% percentyli.
źródło