Chciałbym wygenerować dane za pomocą „Modelu 1” i dopasować je do „Modelu 2”. Podstawową ideą jest zbadanie właściwości odporności „Modelu 2”. Szczególnie interesuje mnie wskaźnik pokrycia 95% przedziału ufności (w oparciu o normalne przybliżenie).
- Jak ustawić liczbę uruchomień iteracji?
- Czy to prawda, że większe niż konieczne replikacje mogą powodować fałszywe uprzedzenia? Jeśli tak, to jak to jest?
simulation
monte-carlo
użytkownik7064
źródło
źródło
Odpowiedzi:
W oparciu o komentarz uzupełniający wygląda na to, że próbujesz oszacować prawdopodobieństwo pokrycia przedziału ufności, gdy zakładasz stałą wariancję błędu, gdy prawdziwa wariancja błędu nie jest stała.
Myślę o tym, że dla każdego przebiegu przedział ufności albo obejmuje prawdziwą wartość, albo nie. Zdefiniuj zmienną wskaźnikową:
Zatem prawdopodobieństwo pokrycia, które Cię interesuje, to które możesz oszacować na podstawie proporcji próbki, która, jak myślę, jest tym, co proponujesz.E(Yi)=p
Jak ustawić liczbę uruchomień iteracji?
Wiemy, że wariancja próby Bernoulliego wynosi , a twoje symulacje wygenerują próby bernoulli IID, dlatego wariancja oszacowania p na podstawie symulacji wynosi p ( 1 - p ) / n , gdzie n jest liczba symulacji. Możesz wybrać n, aby zmniejszyć tę wariancję tak bardzo, jak chcesz. Faktem jest, że P ( 1 - t ) / n ≤ 1 / 4 np ( 1 - p ) p p ( 1 - p ) / n n n
Tak więc, jeśli chcesz wariancja jest mniejsza niż pewien uprzednio określony próg, , to można to zapewnić poprzez wybór n ≥ 1 / 4 Æ .δ n ≥ 1 / 4 δ
W bardziej ogólnym ustawieniu, jeśli próbujesz zbadać właściwości rozkładu próbkowania estymatora za pomocą symulacji (np. Jego średnia i wariancja), możesz wybrać liczbę symulacji na podstawie tego, ile precyzji chcesz osiągnąć w analogiczny sposób moda do opisanej tutaj.
Zauważ również, że gdy przedmiotem zainteresowania jest średnia (lub inny moment) zmiennej, tak jak tutaj, możesz skonstruować dla niej przedział ufności na podstawie symulacji z wykorzystaniem przybliżenia normalnego (tj. Centralnego twierdzenia o granicy) , jak omówiono w ładnej odpowiedzi MansT. To normalne przybliżenie jest lepsze wraz ze wzrostem liczby próbek, więc jeśli planujesz skonstruować przedział ufności, odwołując się do centralnego twierdzenia granicznego, będziesz chciał, aby było wystarczająco duże, aby to zastosować. Dla przypadku binarnego, jak masz tutaj wydaje się przybliżenie to jest dobre, nawet jeśli n p i n ( 1 - p ) są dość umiarkowane - powiedzmy, 20 .n n p n ( 1 - p ) 20
Czy to prawda, że większe niż konieczne replikacje mogą powodować fałszywe uprzedzenia? Jeśli tak, to jak to jest?
Jak wspomniałem w komentarzu - zależy to od tego, co rozumiesz przez fałszywe. Większa liczba symulacji nie spowoduje błędu systematycznego w sensie statystycznym, ale może ujawnić nieważne odchylenie, które jest zauważalne tylko przy astronomicznie dużej próbce. Załóżmy na przykład, że prawdziwe prawdopodobieństwo pokrycia błędnie określonego przedziału 94,9999 % . W praktyce nie jest to jednak problemem, ale tę różnicę można zauważyć tylko wtedy, gdy przeprowadzisz mnóstwo symulacji.94,9999 %
źródło
Często używam szerokości przedziałów ufności jako szybkiego i brudnego sposobu określania liczby potrzebnych iteracji.
źródło
Wykonanie większej liczby symulacji (przy założeniu, że wszystkie próbki są generowane przez losowy proces) nie ma wpływu na oszacowanie pod względem dokładności lub błędu.
źródło