Jak skonstruować 95% przedział ufności różnicy między medianami?

27

Mój problem: randomizowane badanie równoległe w grupie z bardzo skośnym rozkładem pierwotnego wyniku. Nie chcę zakładać normalności i używać opartych na normach 95% CI (tj. Używając 1,96 X SE).

Bez problemu wyrażam miarę tendencji centralnej jako mediany, ale moje pytanie brzmi: jak skonstruować 95% CI różnicy w medianach między dwiema grupami.

Pierwszą rzeczą, która przychodzi na myśl, jest ładowanie (ponowne próbkowanie z zastąpieniem, określenie mediany w każdej z dwóch grup i odejmowanie jednej od drugiej, powtórzenie 1000 razy i użycie 95% CI skorygowanego o błąd systematyczny). Czy to jest właściwe podejście? Jakieś inne sugestie?

pmgjones
źródło
3
To była pierwsza rzecz, która przyszła mi do głowy. Jak dużą próbkę masz?
jbowman
40 osób w każdej z dwóch grup = 80 ogółem.
pmgjones
3
Możesz spojrzeć na nieparametryczny przedział ufności i estymator dla różnicy parametrów lokalizacji w oparciu o estymator Hodgesa-Lehmanna . Jak wyjaśniono na stronie pomocy dla R wilcox.test()(pod Details), jest to ściśle związane z różnicą w medianach, ale nie całkiem takie samo.
caracal
2
Jeśli chodzi o ładowanie ładowania mediany, warto przeczytać o wygładzonym pasku ładowania.
caracal
@caracal: To dobra uwaga. Zarówno zwykły, jak i wygładzony bootstrap ma prawidłowy zasięg asymptotyczny, ale prawdopodobieństwo pokrycia przez wygładzony bootstrap zbiega się z nieco większą szybkością. Jeśli dobrze pamiętam, dla zwykłego bootstrapu i dla wygładzonego bootstrapu. Jest to krótka dyskusja na ten temat z dalszymi odniesieniami do Regresji kwantowej autorstwa Koenkera (2005). |P(mI^n)0.95|=O(n1/3)O(n2/5)
Paul

Odpowiedzi:

10

Opisana procedura ładowania początkowego powinna być poprawna. Należy jednak pamiętać, że podobnie jak normalny przedział ufności 95%, przedział ufności ładowania początkowego gwarantuje jedynie asymptotyczny prawidłowy zasięg. Jedną fajną rzeczą w pracy z medianą lub innymi kwantylami jest to, że możesz konstruować dokładne przedziały ufności dla skończonych próbek przy bardzo słabych założeniach. Podstawową ideą jest to, że pod zerową medianą jest , wskaźnikiem dla jest zmienna losowa Bernoulliego 0,5. Za pomocą tej obserwacji można utworzyć statystykę testową ze znanym rozkładem próbek skończonych. Więcej szczegółów można znaleźć w Czarnozhukov, Hansen, Jansson (2009) .m y < mymy<m

Paweł
źródło
1
Czy mógłbyś wyjaśnić, co masz na myśli, że jest on ważny tylko asymptotycznie? Nie jestem szczególnie pewien, co w tym kontekście oznacza asymptotycznie. Dzięki!
pmgjones
@pmgjones: 95% przedział ufności, , dla niektórych parametrów jest taki, że dla wszystkich możliwych (lub naprawdę wszystkich możliwych procesów generowania danych) . Napisałem aby podkreślić, że interwał jest funkcją twojej próbki. W przypadku ładowania początkowego lub normalnego przedziału ufności nie jest prawdą, że (z wyjątkiem bardzo specjalnych procesów generowania danych). Możesz jednak pokazać, że . Właśnie to miałem na myśli mówiąc, że bootstrap działa tylko asymptotycznie. I^nmP(mI^n)=0.95mI^nP(mI^n)=0.95limnP(mI^n)=0.95
Paul
5

Możesz także wypróbować metodę zaproponowaną w http://www.ncbi.nlm.nih.gov/pubmed/12243307 (Bonett, Price; 2002) jako prostszą (przynajmniej obliczeniową) alternatywę. Przy okazji, dobre pytanie.

AVB
źródło