Co to jest CDF z dwoma próbkami

9

Próbuję zrozumieć, jak uzyskać wartości dla jednostronnego testu Kołmogorowa-Smirnowa i staram się znaleźć CDF dla i w przypadku dwóch próbek. Poniżej podano w kilku miejscach CDF dla w przypadku jednej próby:pDn1,n2+Dn1,n2Dn+

pn+(x)=P(Dn+x|H0)=xj=0n(1x)(nj)(jn+x)j1(1xjn)nj

Co więcej, istnieje nieco inna formuła tego jednopróbkowego CDF (zastępuję x w t jego cytacie za spójność z moją notacją tutaj):

Wykorzystując transformatę całkową prawdopodobieństwa, Donald Knuth wyprowadza ich (wspólny) rozkład na str. 57 i ćwiczenie 17 TAoCP Tom 2. Cytuję:

(ren+xn)=xnndokx(nk)(k-x)k(x+n-k)n-k-1

Odnosi się to do jednostronnych hipotez w przypadku jednej próby, takich jak: H 0fa(x)-fa00 , gdzie fa(x) jest empirycznym CDF z x , a fa0 to trochę CDF.

I że x w tym przypadku jest to wartość ren+ w swoim próbki, a n(1-x) jest największą liczbą całkowitą n-nx . (Czy to prawda?)

Ale czym jest CDF dla (lub ), gdy ma się dwie próbki? Na przykład, gdy H dla empirycznych CDF i ? Jak uzyskać ?ren1,n2)+ren1,n2)-0faZA(x)-fab(x)0ZAbpn1,n2)+

Alexis
źródło
1
Podobnie jak wskaźnik dla każdego, kto szuka odpowiedzi na to pytanie - moja odpowiedź na poprzednie pytanie Alexisa (które jest powiązane z powyższym pytaniem) zawiera linki do kilku odniesień z pewną dyskusją na temat historii, z których każda zawiera szereg istotnych odniesień. Może chcesz sprawdzić te dokumenty i ich listę referencji.
Glen_b
@Glen_b Dziękujemy! Naprawdę doceniam twoją doskonałą odpowiedź na moje inne pytanie i podążyłem za cytowanymi zasobami, ale nie dostałem żadnej troski na CDF dla tam, a raczej zamiast zagłębiać się w komentarze, myślałem, że po prostu otworzę nowe zapytanie . Dodatkowe referencje są mile widziane, jeśli znasz jakieś, które będą do tego nadawać. re+
Alexis
Alexis: mój komentarz nie miał na celu krytyki; Twój wybór otwarcia nowego pytania był dokładnie słuszny (moim zdaniem). Chciałem tylko zaoszczędzić ludziom trochę pracy nóg w śledzeniu niektórych istotnych odniesień - pomyślałem, że niekoniecznie wszyscy mogą przyjść do twojego linku do drugiego pytania i może nie przydarzyć się ludziom, którzy zrobili te linki w moim odpowiedź zawierała pewne referencje, o których chcieliby wiedzieć.
Glen_b

Odpowiedzi:

6

Ok, mam zamiar to zrobić. Mile widziane krytyczne spostrzeżenia.

Na stronie 192 Gibbons i Chakraborti (1992), powołując się Hodges, 1958, start z małej próbki (dokładny?) CDF dla testu dwustronnego (ja swapping ich i notacja dla i odpowiednio ):m,nren1,n2)x

P.(ren1,n2)x)=1-P.(ren1,n2)x)=1-ZA(n1,n2))(n1+n2)n1)

Gdzie powstaje przez wyliczenie ścieżek (monotonicznie rosnących w i ) od początku do punktu przez wykres z - podstawiając na - wartości x- osi i y- osi wynoszą i . Ścieżki muszą ponadto być zgodne z ograniczeniem pozostawania w granicach (gdzie jest wartością statystyki testu Kołmogorowa-Smirnowa):ZA(n1,n2))n1n2)(n1,n2))S.m(x)fan1(x)n1fa1(x)n2)fa2)(x)x

n2)n1±(n1+n2))x(n1+n2)n1)

Poniżej znajduje się ich obraz Rysunek 3.2, podając przykład , z 12 takimi ścieżkami:ZA(3),4)

Ryc. 3.2 ze strony 193 Gibbons and Chakraborti (1992) Nieparametryczne wnioskowanie statystyczne.

Gibbons i Chakaborti twierdzą dalej, że jednostronna wartość jest uzyskiwana przy użyciu tej samej metody graficznej, ale tylko z dolną granicą dla i tylko górna dla .pren1,n2)+ren1,n2)-

Te małe próby obejmują algorytmy zliczania ścieżek i / lub relacje powtarzalności, co niewątpliwie czyni pożądane obliczenia asymptotyczne. Gibony i Chakraborti zauważają również ograniczające CDF, gdy i zbliżają się do nieskończoności, :n1n2)ren1,n2)

limn1,n2)P.(n1n2)n1+n2)ren1,n2)x)=1-2)ja=1(-1)ja-1mi-2)ja2)x2)

I podają ograniczający CDF (lub ) jako:ren1,n2)+ren1,n2)-

limn1,n2)P.(n1n2)n1+n2)ren1,n2)+x)=1-mi-2)x2)

Ponieważ i są ściśle nieujemne, CDF może przyjmować tylko niezerowe wartości powyżej :re+re-[0,)

CDF w wysokości $ D ^ {+} $ (lub $ D ^ {-} $)


Odnośniki
Gibbons, JD i Chakraborti, S. (1992). Nieparametryczne wnioskowanie statystyczne . Marcel Decker, Inc., wydanie trzecie, wydanie poprawione i rozszerzone.

Hodges, JL (1958). Prawdopodobieństwo istotności testu dwóch prób Smirnova. Arkiv för matematik . 3 (5): 469--486.

Alexis
źródło
1
Rzeczywiste cdf istnieje wszędzie, ale dla cdf będzie wynosić zero; forma funkcjonalna, którą podałeś, dotyczy tylko (jest to łatwe do prostego rozumowania; co to jest ?(-,0)x0P.(re+<0)
Glen_b