Jak i dlaczego generatory liczb losowych (RNG) są ważne w statystyce obliczeniowej?
Rozumiem, że losowość jest ważna przy wyborze próbek do wielu testów statystycznych, aby uniknąć stronniczości wobec którejkolwiek hipotezy, ale czy istnieją inne obszary statystyki obliczeniowej, w których ważne są generatory liczb losowych?
Odpowiedzi:
Jest wiele przykładów. O wiele za dużo, by je wymienić, i prawdopodobnie za dużo, by ktokolwiek mógł je całkowicie poznać (poza tym być może @ whuber, którego nigdy nie należy lekceważyć).
Jak wspomniałeś, w kontrolowanych eksperymentach unikamy błędu systematycznego próbkowania poprzez losowe dzielenie osobników na grupy leczenia i kontrolne.
Podczas ładowania początkowego aproksymujemy powtarzane próbkowanie z populacji przez losowe próbkowanie z zastępowaniem z ustalonej próbki. To pozwala nam między innymi oszacować wariancję naszych szacunków.
W ramach walidacji krzyżowej szacujemy błąd próby poza oszacowaniem, losowo dzieląc nasze dane na plasterki i zestawiając losowe zestawy szkoleniowe i testowe.
W testach permutacyjnych używamy losowych permutacji do próbkowania pod hipotezą zerową, co pozwala na wykonywanie testów hipotez nieparametrycznych w wielu różnych sytuacjach.
W workowaniu kontrolujemy wariancję oszacowania, wielokrotnie wykonując oszacowanie na próbkach bootstrap danych treningowych, a następnie uśredniając wyniki.
W losowych lasach dodatkowo kontrolujemy wariancję oszacowania, losowo próbkując z dostępnych predyktorów w każdym punkcie decyzyjnym.
W symulacji prosimy model dopasowania, aby losowo generował nowe zestawy danych, które możemy porównać do danych szkoleniowych lub testowych, pomagając zweryfikować dopasowanie i założenia w modelu.
W łańcuchu Markov Monte Carlo próbujemy z rozkładu, badając przestrzeń możliwych wyników za pomocą łańcucha Markowa (dzięki @Ben Bolker za ten przykład).
To tylko typowe, codzienne aplikacje, które przychodzą na myśl od razu. Gdybym kopał głęboko, prawdopodobnie mógłbym podwoić długość tej listy. Losowość jest zarówno ważnym przedmiotem badań, jak i ważnym narzędziem do władania.
źródło
Jeśli to twoja sprawa, to może tytuł pytania powinien zostać zmieniony na „Wpływ wyboru RNG na wyniki Monte Carlo” lub coś w tym rodzaju. W tym przypadku, rozważanym już przy weryfikacji krzyżowej SE , oto kilka wskazówek
źródło