Integracja Monte Carlo dla funkcji całkowitych niekwadratowych

9

Mam nadzieję, że jest to właściwe miejsce, aby zapytać, jeśli nie, możesz przenieść je na bardziej odpowiednie forum.

Od dłuższego czasu zastanawiam się, jak traktować funkcje całkowite niekwadratowe z integracją Monte Carlo. Wiem, że MC nadal podaje prawidłowe oszacowanie, ale błąd jest nierealny (rozbieżny?) Dla tego rodzaju funkcji.

Ograniczmy nas do jednego wymiaru. Integracja Monte Carlo oznacza, że ​​przybliżamy całkę

I=01dxf(x)

używając oszacowania

E=1Ni=1Nf(xi)

z równomiernie rozmieszczonymi losowymi punktami. Prawo wielkich liczb zapewnia, że .Próbka wariancjixi[0,1]EI

S2=1N1i=1N(f(xi)E)2

aproksymuje wariancję rozkładu indukowanego przez . Jeśli jednak nie jest całką kwadratową, tzn. Całka funkcji kwadratowej jest rozbieżna, oznacza toσ2ff

σ2=01dx(f(x)I)2=01dxf2(x)I2

co oznacza, że ​​również wariancja jest rozbieżna.

Prostym przykładem jest funkcja

f(x)=1x

dla których i .I=01dx1x=2σ2=01dx(1x2)=[lnx2x]01

Jeśli jest skończona, można oszacować błąd średniej o , ale co jeśli czy nie jest całką kwadratową?σ2ESNσNf(x)

cschwan
źródło
1
Nie rozumiem: zaczynasz od zauważenia, że ​​żaden z nie ma wariancji, a następnie pytasz, czy wariancja ich średniej byłaby rozsądnym estymatorem - tej nieistniejącej wariancji! Czy też błędnie interpretuję to pytanie: może przez „statystycznie niezależne oszacowania” masz na myśli inny (być może solidny) estymator całki? Ei
whuber
Nie powiedziałem, że nie ma wariancji, tylko że nie mogę zdefiniować wariancji dla . Pytanie brzmi, czy mogę w ogóle zdefiniować błąd i czy jest rozsądnym kandydatem. Przez statystycznie niezależny rozumiem, że są uzyskiwane przy użyciu różnych liczb losowych, np. Przy użyciu różnie rozstawionych generatorów liczb losowych (mam nadzieję, że wtedy jest to właściwy termin). ES2S¯2Ei
cschwan
Wyjaśnij, co masz na myśli mówiąc, że nie jesteś w stanie „zdefiniować wariancji dla ”. Nie mogę tego zrozumieć, używając standardowych definicji wariancji i . S2S2
whuber
Cóż, funkcja nie jest całką kwadratową, więc jeśli się nie mylę, powinien się rozejść . Jeśli tak jest, to definicja nie ma sensu, prawda? Jednak za pomocą centralnego twierdzenia granicznego nadal będzie zbieżne z rzeczywistą wartością całki, ale bez błędu sama ta wartość nie ma sensu (jak „dobry” jest ten wynik?). S2S2E
cschwan
Przepraszam, chciałem powiedzieć „prawo wielkich liczb”, oczywiście nie CLT.
cschwan

Odpowiedzi:

2

Możesz po prostu użyć innych miar skali / dyspersji, takich jak zakres międzykwartylowy, na które asymptotyki ogonów nie mają wpływu, a zatem na całkowitą kwadratowość. Z tą dodatkową zaletą, że często są one ogólnie bardziej wytrzymałe.

Oczywiście należy zastosować je do ponownego próbkowania / ładowania początkowego, a następnie estymatora średniego, nie tylko bezpośrednio do surowego wyniku z próbkowania MC funkcji przed uśrednieniem. Możesz również sprawdzić ogólnie estymatory L i dostosować jeden z nich, aby połączyć te dwa kroki w jeden pod kątem wydajności, ale mentalnie te dwa rozkłady nie będą mylone, nawet jeśli PDF estymatora odziedziczy pewne cechy (w tym może brak kwadratu całkowalność).

Kwarc
źródło
+1, powinienem dodać, że prawo wielkich liczb nie wymaga drugich chwil, więc jest to bardzo dobra rada.
mpiktas
Dzięki za odpowiedź! Muszę przyznać, że czytam te warunki po raz pierwszy, ale patrząc na nie w WP myślę, że twoja odpowiedź wskazuje mi właściwy kierunek. Czy ty lub ktoś inny może zasugerować niektóre artykuły lub książki, które wyjaśniają tematy bardziej szczegółowo?
cschwan
Zauważam teraz, że być może moja odpowiedź była nieco niejasna. Ponieważ przeprowadzasz symulację, tak naprawdę nie potrzebujesz ponownego próbkowania / ładowania początkowego, teoretycznie możesz zamiast tego dodać kolejne nowe próbki i uzyskać rozkład empiryczny dla estymatora średniej. Tylko jeśli zasoby są problemem, możesz wstępnie obliczyć średnie cząstkowe i ponownie je przeskalować, ale statystyki nie będą trywialne, jeśli dobrze zrobione. Nie jestem ekspertem od boostrap, więc zostawię radę na ten temat innym, chciałem tylko zwrócić uwagę, jeśli chcesz wyjść poza proste sformułowanie. Najpierw skoncentruj się na pomiarach dyspersji, później zoptymalizuj.
Kwarc
Proponowany estymator średni nie ma skończonej wariancji. Nie ma znaczenia, jeśli doda się kolejne próbki, rozkład empiryczny estymatora TAKŻE będzie miał wariancję nieskończoną. Możesz to potwierdzić za pomocą kilku symulacji.
rajb245
1
Jasne, w rzeczywistości to właśnie było omawiane i powód, dla którego należy zastosować inną miarę dyspersji.
Kwarc