Co jeśli prawdopodobieństwo nie jest równe w „Regule .632?”

11

To pytanie pochodzi od tego, które dotyczy „Reguły .632”. Piszę ze szczególnym uwzględnieniem odpowiedzi / notacji użytkownika user603 w zakresie, w jakim upraszcza to sprawę.

Ta odpowiedź zaczyna się od próbki o wielkości z zamianą, z różnych elementów w kolekcji (wywołaj) it N. Prawdopodobieństwo, że próbka jest różna od określonego elementu N, wynosi wtedyn i t h s i m ( 1 - 1 / n ) .n,nithsim(11/n).

W tej odpowiedzi wszystkie elementy N mają równe szanse na losowanie.

Moje pytanie brzmi: załóżmy zamiast tego, że w powyższym pytaniu elementy do narysowania są takie, że są normalnie rozmieszczone. Oznacza to, że dzielimy standardową krzywą normalną od do na (powiedzmy) 100 podinterwali o równej długości. Każde ze 100 elementów w N ma prawdopodobieństwo narysowania równe powierzchni objętej krzywą w odpowiednim przedziale.Z=4Z=4

Moje myślenie było następujące:

Myślę, że rozumowanie jest podobne do tego w połączonej odpowiedzi. Prawdopodobieństwo, że , przy czym jest elementem N, to w którym jest prawdopodobieństwem wyciągnięciasimmP(sim)=(1Fi)Fisi.

Prawdopodobieństwo, że dany element m znajduje się w próbce S o rozmiarze n, wynosi

= 1 - n gatunku 1 ( 1 - F ı ) .

P(mS)=1P(mS)=11nP(sim)
=11n(1Fi).

Obliczenia wydają się pokazywać, że wraz ze zmniejszaniem się długości pod-przedziałów odpowiedź zbiega się do tej samej liczby, co w pierwszym przypadku (wszystkie prawdopodobieństwa są równe).si

Wydaje mi się to sprzeczne z intuicją (dla mnie), ponieważ konstrukcja wydaje się wrzucać elementy N, które są rzadkie, więc oczekiwałbym liczby mniejszej niż .632.

Ponadto, jeśli jest to poprawne, myślę, że mielibyśmy

limn1n(1Fi)=lim(11/n)n=1/e,

które nie wiem jeszcze, czy są prawdziwe czy fałszywe.

Edycja: Jeśli to prawda, prawdopodobnie uogólni niektóre.

Dzięki za wszelkie spostrzeżenia.

Daniel
źródło
Właśnie zapytałem o ostatnie równanie na Mathematics SE (pytanie 791114), ponieważ jestem również zainteresowany tym, jak się uogólnia, jeśli w ogóle.
Daniel
... a krótka odpowiedź jest taka, że ​​ostatnia równość jest poprawna dla dobrze zachowanych plików PDF, więc odpowiedź na pytanie jest taka, że ​​reguła .632 dotyczy szerokiej gamy podstawowych dystrybucji.
Daniel
Czy mogę podnieść odpowiedź innej osoby z innej witryny i opublikować ją tutaj jako moją? Dlatego opublikowałem krótki komentarz. Może istnieje akceptowany sposób na zrobienie tego, jeśli tak, jestem podatny.
Daniel
oczywiście możesz, po prostu wspomnij o źródle w pewnym momencie :)
Firebug
@Firebug: czy możesz wskazać instancję, w której jest to zrobione, abym mógł zobaczyć, co masz na myśli? Dzięki.
Daniel

Odpowiedzi:

2

Pytanie dotyczy ograniczenia zachowania

(1)=1i=1n(1Fi)

gdy rośnie, a równomiernie kurczą się w taki sposób, że (a) wszystkie są nieujemne i (b) sumują się do jedności. ( to z konstrukcji i aksjomatów prawdopodobieństwa.)nFi Fi

Z definicji ten produkt jest wykładnikiem logarytmu:

i=1n(1Fi)=exp(i=1nlog(1Fi)).

Twierdzenie Taylora (z resztą w postaci Lagrange'a) zastosowane do , potwierdza tolog

log(1Fi)=Fi12ϕi2Fi12Fi2

dla niektórych w przedziale . Innymi słowy, logarytmy te są równe do warunków, które są najwyżej razy . Ale gdy jest wystarczająco duże, aby zapewnić, że wszystkie są mniejsze niż niektóre podane (warunek zapewniony przez jednolity skurcz ), wtedy (b) oznacza i dlategoϕi[0,Fi]Fi 1/2Fi2nFiϵ>0Finϵ>Fi=1

i=1nFi2i=1nϵ2<i=1n(1n)2=1n.

w konsekwencji

1=i=1nFii=1nlog(1Fi)i=1nFi121n=112n

ściska logarytm między dwiema sekwencjami zbiegającymi się do . Ponieważ jest ciągły, produkt zbiega się do wykładniczej granicy tego, . w konsekwencji1expi=1n(1Fi)exp(1)

limn(1i=1n(1Fi))=1exp(1)0.632,

QED .


Przy bliższym przyjrzeniu się tej analizie stwierdzono, że błąd w tym przybliżeniu (który zawsze będzie dolną granicą) nie jest większy niż Na przykład podział standardowego rozkładu normalnego na plasterków między a daje maksymalne pobliżu trybu , gdzie będzie w przybliżeniu równe powierzchni prostokąta, . Powyższe ograniczenie ustanawia wartość wzoru w granicach od jego wartości granicznej. Rzeczywisty błąd jest o rząd wielkości mniejszy,

(exp((n/2)max(Fi2))1)exp(1).
n=40044Fi0exp(1/2)/500.012(1)0.0110.001041 . Oto obliczenia w R(którym możemy zaufać, ponieważ żaden z jest naprawdę mały w stosunku do ):fi1
f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

Rzeczywiście, 1 - prod(1-f)wynosi podczas gdy to .0.63316151exp(1)0.6321206

Whuber
źródło
2
Analiza błędów jest bardzo pomocnym aspektem tej odpowiedzi.
Daniel