Bootstrap vs Monte Carlo, oszacowanie błędu

12

Czytam artykuł Propagacja błędów metodą Monte Carlo w obliczeniach geochemicznych, Anderson (1976) i jest coś, czego nie do końca rozumiem.

Rozważmy niektóre zmierzone dane oraz program, który je przetwarza i zwraca określoną wartość. W artykule program ten służy najpierw do uzyskania najlepszej wartości za pomocą danych (tj .: ).{ A , B , C }{A±σA,B±σB,C±σC}{A,B,C}

Następnie autor stosuje metodę Monte Carlo, aby przypisać niepewność do tej najlepszej wartości, zmieniając parametry wejściowe w ramach ich granic niepewności (podanych przez rozkład Gaussa ze średnimi i odchyleniami standardowymi ) przed podaniem ich do programu. Ilustruje to poniższy rysunek:{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

wprowadź opis zdjęcia tutaj

( Prawa autorskie: ScienceDirect )

gdzie niepewność można uzyskać z końcowego rozkładuZ

Co by się stało, gdyby zamiast tej metody Monte Carlo zastosowałem metodę ładowania początkowego? Coś takiego:

wprowadź opis zdjęcia tutaj

To jest: zamiast różnicować dane w obrębie ich niepewności przed podaniem ich do programu, próbuję z ich zamiennikiem.

Jakie są różnice między tymi dwiema metodami w tym przypadku? O jakich zastrzeżeniach powinienem wiedzieć przed zastosowaniem któregokolwiek z nich?


Zdaję sobie sprawę z tego pytania Bootstrap, Monte Carlo , ale to nie rozwiązuje moich wątpliwości, ponieważ w tym przypadku dane zawierają przypisane niepewności.

Gabriel
źródło
Wystarczy wyjaśnić: „losowa zmiana” w metodzie MC jest losowo generowana przez badacza? Oznacza to, że szum / błędy są sztucznie dodawane do danych wejściowych?
shadowtalker,
Jest on „generowany losowo” na podstawie niepewności zmierzonych danych (tj. ) i przy założeniu pewnego rozkładu dla tych błędów (zwykle Gaussa). Więc nie, błędy nie są dodawane sztucznie. Z danymi wejściowymi związany jest błąd podany przez proces pomiarowy. σ
Gabriel,
Nie sądzę, że rozumiem. To sztuczny hałas, ale ze standardowym odchyleniem oszacowanym na podstawie danych
shadowtalker
Wtedy prawdopodobnie nie rozumiem, czym jest „sztuczny hałas” (i co stanowiłoby „nie-sztuczny hałas”). Czy widziałeś ten artykuł? Z pewnością wyjaśnia to znacznie lepiej niż ja.
Gabriel
Szum naturalny: losowa zmienność moich danych. Sztuczny hałas: używanie generatora liczb losowych do rysowania liczb z rozkładu prawdopodobieństwa i dodawanie tych liczb do moich danych
Shadowtalker

Odpowiedzi:

7

O ile rozumiem twoje pytanie, różnica między podejściem „Monte Carlo” a podejściem „bootstrap” jest zasadniczo różnicą między statystykami parametrycznymi i nieparametrycznymi.

W strukturze parametrycznej dokładnie wiadomo, w jaki sposób generowane są dane , to znaczy biorąc pod uwagę parametry modelu ( , i tc. W opisie), możesz tworzyć nowe realizacje takich zestawów danych , a od nich nowe realizacje procedury statystycznej (lub „wyników”). Możliwe jest zatem całkowite i dokładne opisanie rozkładu prawdopodobieństwa wyjścia , albo za pomocą pochodnych matematycznych lub eksperymentu Monte Carlo, zwracając próbkę o dowolnym rozmiarze z tego rozkładu. A σ A Zx1,,xNAσAZ

FF^1/nF^FZ

Tak więc główna różnica między obydwoma podejściami polega na tym, czy przyjmuje się parametryczne założenie dotyczące dystrybucji danych.

Xi'an
źródło
2
Prawie dwa lata później wiem, że jest to najlepsza odpowiedź, ponieważ wyraźnie wspomina o różnicy między podejściami parametrycznymi i nieparametrycznymi (których wtedy nie znałem). Dlatego zmieniam przyjętą odpowiedź na to jedno. .
Gabriel,
ale w przypadku podejścia paramrtricznego można również użyć parametrycznego ładowania początkowego, prawda?
Tom Wenseleers,
12

Losowa zmiana w twoim modelu Monte Carlo jest reprezentowana przez krzywą dzwonową, a obliczenia prawdopodobnie zakładają rozkład normalny „błąd” lub „zmiana”. Przynajmniej twój komputer potrzebuje pewnych założeń co do dystrybucji, z której będzie czerpać „zmianę”. Bootstrapping niekoniecznie przyjmuje takie założenia. Przyjmuje obserwacje jako obserwacje, a jeśli ich błąd jest asymetrycznie rozłożony, to przechodzi w ten sposób do modelu.

Bootstrapping czerpie z obserwacji i dlatego potrzebuje wielu prawdziwych obserwacji. Jeśli czytasz w książce, że C wynosi średnio 5 przy standardowym odchyleniu 1, możesz ustawić model Monte Carlo, nawet jeśli nie masz obserwacji do wyciągnięcia. Jeśli twoich obserwacji jest niewiele (pomyśl: astronomia), możesz założyć Monte Carlo Modell z 6 obserwacjami i niektórymi założeniami dotyczącymi ich rozmieszczenia, ale nie zaczniesz od 6 obserwacji.

Możliwe są mieszane modele z pewnymi danymi pochodzącymi z danych obserwowanych, a niektóre z danych symulowanych (powiedzmy hipotetycznych).

Edycja: W poniższej dyskusji w komentarzach oryginalny plakat znalazł następujące pomocne:

„Oryginalny program” nie dba o to, czy otrzyma wartość, którą wyliczyłeś ze średniej i odchylenia, czy też jest to prawdziwa realizacja wartości średniej i odchylenia w naturalnym procesie.

Bernhard
źródło
1
Dziękuję za odpowiedź Bernhard! Kilka pytań, które przychodzą mi do głowy. 1. Czy rozumiem poprawnie, że jedyną (główną?) Różnicą między tymi dwiema metodami jest to, że MC musi przyjąć rozkład niepewności, podczas gdy bootstrap nie? 2. Gdybym miał wystarczająco duży zestaw danych i wykonałem iterację wiele razy ( ), czy te dwie metody byłyby zbieżne w stosunku do szacowanej niepewności przypisanej do najlepszej wartości ? 3. Czy nie odrzucam cennych danych, nie używając niepewności przypisanych do danych wejściowych w metodzie bootstrap? N
Gabriel
1
Jestem samoukiem statystycznie / uczącym się maszynowo, więc nie twierdzę, że żadna z wymienionych przeze mnie różnic jest jedyna. Nie jestem nawet pewien, czy Bootstrapping jest uważany za samą metodę Monte Carlo. Oba algorytmy symulują dużą liczbę realistycznych scenariuszy. Możesz albo czerpać dane wejściowe z założeń lub z obserwacji. Moja dziedzina to medycyna, a założenia są w tej dziedzinie bardzo błędne. Dlatego starałbym się obserwować, ilekroć są one dostępne w wystarczającej liczbie. Może się zdarzyć, że w dziedzinie bliższej fizyce lub chemii ...
Bernhard
1
... że w dziedzinach bliższych fizyce lub chemii założenia są bardziej wiarygodne. Odnośnie do punktu 2: jeśli przejdziesz przez wystarczająco duże próbki i iteracje, zakładam, że odkryjesz, że prawdziwe dane nigdy nie są rzeczywiście normalnie dystrybuowane i że twoje założenia są zawsze trochę błędne, ale nie mogę twierdzić, że mam jakąkolwiek wiedzę. Jeśli chodzi o punkt 3: nie jestem pewien, czy zrozumiałem, co masz na myśli, odrzucając cenne dane w metodzie bootstrap. „Przypisywanie niepewności” jest dziełem człowieka, Dane pochodzą z rzeczywistości. Znowu takie jest moje przekonanie oparte na mojej dziedzinie. W rzeczywistości rzadko masz dobrą teorię i duże dane
Bernhard
1
Przez odrzucenie cenne dane mam na myśli, że metoda bootstrap sprawia, że nie korzysta z niepewności przypisanych do danych (np: ) Jest to „informacje”, że metoda MC uwzględnia ale odrzutów startowej. σA,σB,σC
Gabriel
1
Każda obserwacja jest wartością zmierzoną, a zatem zawiera już własny błąd pomiaru i niepewność. „Oryginalny program” nie dba o to, czy otrzyma wartość, którą wyliczyłeś ze średniej i odchylenia, czy też jest to prawdziwa realizacja wartości średniej i odchylenia w naturalnym procesie. Ale oczywiście wszystkie techniki ponownego próbkowania opierają się na dużych danych i można obliczyć dowolne liczby lub liczby losowe, ale zwykle nie można wykonywać dowolnych liczb obserwacji. Tak więc w przypadkach, gdy masz dużą liczbę obserwacji, nie widzę, gdzie dane są odrzucane.
Bernhard
1

Jeżeli funkcja odnosząca wynik wyjściowy Z do danych wejściowych jest w miarę liniowa (tj. W zakresie zmienności danych wejściowych), wariancja Z jest kombinacją wariancji i kowariancji danych wejściowych. Szczegóły dystrybucji nie mają większego znaczenia ... Tak więc obie metody powinny zwracać podobne wyniki.

Zobacz suplement 1 do GUM

Pascal
źródło
Co dzieje się, gdy funkcja nie jest względnie liniowa? Czym zatem różnią się te dwie metody?
Gabriel
W takim przypadku powinieneś odnieść się do powyższej odpowiedzi Bernharda. Oznacza to, że aby się pokryły, powinieneś mieć dokładny opis danych pdf dla Monte Carlo.
Pascal
0

Bootstrap oznacza, że ​​dane mówią same za siebie. Metodą Monte Carlo próbkujesz wiele losowych losowań z narzuconego CDF (normalny; gamma; beta ...) poprzez równomierny rozkład i tworzysz empiryczny plik PDF (pod warunkiem, że CDF jest ciągły i możliwy do uzyskania). Interesujące wyjaśnienie całego procesu Monte Carlo opisano w: Briggs A, Schulper M, Claxton K. Modelowanie decyzyjne oceny ekonomicznej zdrowia. Oxford: Oxford University Press, 2006: 93-95.

Carlo Lazzaro
źródło