Czy mogę użyć testów permutacyjnych, aby uniknąć problemu wielokrotnego porównywania w kontekście proporcji?

9

Oceniam skuteczność 5 różnych metod przewidywania konkretnego wyniku binarnego (nazywaj je „sukcesem” i „porażką”). Dane wyglądają tak:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Chciałbym wykonać test wśród tych 5 metod, aby ocenić względną wyższość metod. Innymi słowy, chcę uporządkować metody według wydajności jako metoda 1> metoda 2> ... metoda 5. Aby uniknąć problemu wielokrotnych porównań, planuję wykonać test permutacji według następujących zasad:

Krok 1: Połącz wszystkie dane, aby ogólna wielkość próby wynosiła 114 z 37 ogólnymi sukcesami.

Krok 2: Losowo podziel dane na 5 grup o odpowiednich wielkościach próbek 28, 19, 24, 21 i 22.

Krok 3: Zwiększ licznik, jeśli zaobserwowana kolejność Percent_Success z kroku 2 jest zgodna z kolejnością moich danych.

Krok 4: Powtórz kroki 2 i 3 wiele razy (powiedzmy 10000).

Pożądana wartość p = końcowa wartość licznika / 10000.

Pytania:

  1. Czy powyższa procedura jest w porządku?

  2. Czy w R jest coś, co umożliwi mi wykonanie powyższego testu?

  3. Wszelkie sugestie dotyczące ulepszeń lub metod alternatywnych byłyby pomocne.

sxv
źródło
@whuber Czy masz może kod R, aby podzielić się tym, jak to zrobiłeś?
B_Miner

Odpowiedzi:

6

Proponowana procedura nie odpowiada na twoje pytanie. Ocenia jedynie częstotliwość, zgodnie z hipotezą zerową, z jaką wystąpiłaby twoja obserwowana kolejność. Ale pod tym zerem, dla dobrego przybliżenia, wszystkie zamówienia są jednakowo prawdopodobne, skąd twoje obliczenia dadzą wartość bliską 1/5! = około 0,83%. To nic nam nie mówi.

Jeszcze jedno oczywiste spostrzeżenie: kolejność, na podstawie twoich danych, wynosi 4> 5> 3> 2> 1. Szacunki ich względnej wyższości wynoszą 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% itd.

Załóżmy teraz, że twoje pytanie dotyczy zakresu, w jakim dowolna z różnic w proporcjach może wynikać z przypadku pod hipotezą zerową o braku różnicy. Rzeczywiście możesz ocenić te dziesięć pytań za pomocą testu permutacji. Jednak w każdej iteracji należy śledzić dziesięć wskaźników względnej różnicy w proporcjach, a nie jeden globalny wskaźnik całkowitego zamówienia.(52)=10

Dla danych uzyskano symulację z 100 000 iteracjami

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

Różnice w proporcjach między metodą 4 a metodami 1, 2 i 3 prawdopodobnie nie są spowodowane przypadkiem (z szacowanymi prawdopodobieństwami odpowiednio 0,03%, 0,37%, 0,88%), ale mogą być inne różnice. Istnieją pewne dowody (p = 2,44%) na różnicę między metodami 1 i 5. Zatem wydaje się, że można mieć pewność, że różnice w proporcjach zaangażowanych w relacje 4> 3, 4> 2 i 4> 1 są dodatnie , i najprawdopodobniej taka jest różnica w 5> 1.

Whuber
źródło
1
To znacznie lepsza odpowiedź niż moja! Obawiam się, że nie przeczytałem poprawnie pytania (szczególnie krok 3). Myślałem o usunięciu mojej odpowiedzi, ale stoję przy lepszej interpretacji podejścia bayesowskiego, ponieważ tak naprawdę ranking jest interesujący.
onestop
Tylko dla upewnienia się, że rozumiem poprawnie - Wskaźnik, który śledzi względną różnicę między metodą 4 i 5, będzie aktualizowany za każdym razem, gdy zauważymy różnicę większą niż 0,21.
sxv
@sxv Tak, zgadza się. (Cóż, faktycznie użyłem wartości większej lub równej. Więzy się zdarzają. Myślę, że uwzględnienie równości wśród znaczących wyników jest słuszne, ponieważ oceniamy prawdopodobieństwo, że różnice tak duże lub większe mogą wystąpić przypadkowo.)
whuber
1

Sugerowana procedura testu permutacji Monte-Carlo da wartość p dla testu hipotezy zerowej, że prawdopodobieństwo sukcesu jest takie samo dla wszystkich metod. Ale nie ma powodu, aby przeprowadzać tutaj test permutacji Monte Carlo , gdy odpowiedni dokładny test permutacji jest całkowicie wykonalny. To dokładny test Fishera (cóż, niektórzy ludzie rezerwują tę nazwę dla tabel 2x2, w takim przypadku jest to warunkowy dokładny test). Właśnie wpisałem twoje dane do Stata i -tabi ..., dokładnie- dał p = 0,0067 (dla porównania test chi-kwadrat Pearsona daje p = 0,0059). Jestem pewien, że w R istnieje równoważna funkcja, którą wkrótce dodadzą guru R.

Jeśli naprawdę chcesz spojrzeć na ranking, możesz najlepiej zastosować podejście bayesowskie, ponieważ może to dać prostą interpretację prawdopodobieństwa, że ​​każda metoda jest naprawdę najlepsza, druga najlepsza, trzecia najlepsza .... Oczywiście wiąże się to z koniecznością postawienia priorytetów na prawdopodobieństwie. Oszacowanie maksymalnego prawdopodobieństwa rang jest po prostu obserwowanym porządkiem, ale trudno jest oszacować niepewność w rankingu w częstym systemie w sposób, który można łatwo zinterpretować, o ile mi wiadomo.

Zdaję sobie sprawę, że nie wspominałem o wielu porównaniach, ale po prostu nie rozumiem, jak do tego dochodzi.

jeden przystanek
źródło
2
Dokładny test Fishera i chi-kwadraty Pearsona sprawdzają zerową hipotezę, że wszystkie 5 metod jest równie skutecznych w porównaniu z alternatywą, że co najmniej 1 jest lepsza niż inne. Wartości p mówią mi, że wartość null jest odrzucana. Więc jeśli chcę dowiedzieć się, które metody są rzeczywiście lepsze niż inne, nie muszę robić 10 porównań parami?
sxv