Oceniam skuteczność 5 różnych metod przewidywania konkretnego wyniku binarnego (nazywaj je „sukcesem” i „porażką”). Dane wyglądają tak:
Method Sample_Size Success Percent_Success
1 28 4 0.14
2 19 4 0.21
3 24 7 0.29
4 21 13 0.61
5 22 9 0.40
Chciałbym wykonać test wśród tych 5 metod, aby ocenić względną wyższość metod. Innymi słowy, chcę uporządkować metody według wydajności jako metoda 1> metoda 2> ... metoda 5. Aby uniknąć problemu wielokrotnych porównań, planuję wykonać test permutacji według następujących zasad:
Krok 1: Połącz wszystkie dane, aby ogólna wielkość próby wynosiła 114 z 37 ogólnymi sukcesami.
Krok 2: Losowo podziel dane na 5 grup o odpowiednich wielkościach próbek 28, 19, 24, 21 i 22.
Krok 3: Zwiększ licznik, jeśli zaobserwowana kolejność Percent_Success z kroku 2 jest zgodna z kolejnością moich danych.
Krok 4: Powtórz kroki 2 i 3 wiele razy (powiedzmy 10000).
Pożądana wartość p = końcowa wartość licznika / 10000.
Pytania:
Czy powyższa procedura jest w porządku?
Czy w R jest coś, co umożliwi mi wykonanie powyższego testu?
Wszelkie sugestie dotyczące ulepszeń lub metod alternatywnych byłyby pomocne.
Odpowiedzi:
Proponowana procedura nie odpowiada na twoje pytanie. Ocenia jedynie częstotliwość, zgodnie z hipotezą zerową, z jaką wystąpiłaby twoja obserwowana kolejność. Ale pod tym zerem, dla dobrego przybliżenia, wszystkie zamówienia są jednakowo prawdopodobne, skąd twoje obliczenia dadzą wartość bliską 1/5! = około 0,83%. To nic nam nie mówi.
Jeszcze jedno oczywiste spostrzeżenie: kolejność, na podstawie twoich danych, wynosi 4> 5> 3> 2> 1. Szacunki ich względnej wyższości wynoszą 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% itd.
Załóżmy teraz, że twoje pytanie dotyczy zakresu, w jakim dowolna z różnic w proporcjach może wynikać z przypadku pod hipotezą zerową o braku różnicy. Rzeczywiście możesz ocenić te dziesięć pytań za pomocą testu permutacji. Jednak w każdej iteracji należy śledzić dziesięć wskaźników względnej różnicy w proporcjach, a nie jeden globalny wskaźnik całkowitego zamówienia.(52)=10
Dla danych uzyskano symulację z 100 000 iteracjami
Różnice w proporcjach między metodą 4 a metodami 1, 2 i 3 prawdopodobnie nie są spowodowane przypadkiem (z szacowanymi prawdopodobieństwami odpowiednio 0,03%, 0,37%, 0,88%), ale mogą być inne różnice. Istnieją pewne dowody (p = 2,44%) na różnicę między metodami 1 i 5. Zatem wydaje się, że można mieć pewność, że różnice w proporcjach zaangażowanych w relacje 4> 3, 4> 2 i 4> 1 są dodatnie , i najprawdopodobniej taka jest różnica w 5> 1.
źródło
Sugerowana procedura testu permutacji Monte-Carlo da wartość p dla testu hipotezy zerowej, że prawdopodobieństwo sukcesu jest takie samo dla wszystkich metod. Ale nie ma powodu, aby przeprowadzać tutaj test permutacji Monte Carlo , gdy odpowiedni dokładny test permutacji jest całkowicie wykonalny. To dokładny test Fishera (cóż, niektórzy ludzie rezerwują tę nazwę dla tabel 2x2, w takim przypadku jest to warunkowy dokładny test). Właśnie wpisałem twoje dane do Stata i -tabi ..., dokładnie- dał p = 0,0067 (dla porównania test chi-kwadrat Pearsona daje p = 0,0059). Jestem pewien, że w R istnieje równoważna funkcja, którą wkrótce dodadzą guru R.
Jeśli naprawdę chcesz spojrzeć na ranking, możesz najlepiej zastosować podejście bayesowskie, ponieważ może to dać prostą interpretację prawdopodobieństwa, że każda metoda jest naprawdę najlepsza, druga najlepsza, trzecia najlepsza .... Oczywiście wiąże się to z koniecznością postawienia priorytetów na prawdopodobieństwie. Oszacowanie maksymalnego prawdopodobieństwa rang jest po prostu obserwowanym porządkiem, ale trudno jest oszacować niepewność w rankingu w częstym systemie w sposób, który można łatwo zinterpretować, o ile mi wiadomo.
Zdaję sobie sprawę, że nie wspominałem o wielu porównaniach, ale po prostu nie rozumiem, jak do tego dochodzi.
źródło