Jak poprawnie zastosować test post-hoc Nemenyi po teście Friedmana

11

Porównuję wydajność wielu algorytmów na wielu zestawach danych. Ponieważ te pomiary wydajności nie są normalnie dystrybuowane, wybrałem test Friedmana z Nemenyi post-hoc testem opartym na Demšar (2006) .

Następnie znalazłem inny artykuł, w którym oprócz sugerowania innych metod, takich jak test Quade z późniejszym testem post-hoc Shaffera, stosują test Nemenyi w inny sposób.

Jak poprawnie zastosować test post-hoc Nemenyi?

1. Korzystając ze statystyki zasięgu uczonego?

W pracy Demšara mówi się o odrzuceniu hipotezy zerowej (brak różnicy wydajności dwóch algorytmów), jeśli średnia różnica rang jest większa niż CD odległości krytycznej z

CD=qαk(k+1)6N

„gdzie wartości krytyczne qα oparte są na statystyce zasięgu z podziałem na studia podzielonej przez 2.

Po kilku kopaniach odkryłem, że te „wartości krytyczne” można wyszukać dla niektórych alf, na przykład w tabeli dlaα=0.05, dla nieskończonych stopni swobody (na dole każdej tabeli).

2. lub stosując rozkład normalny?

Właśnie wtedy, gdy pomyślałem, że wiem, co mam zrobić, znalazłem kolejny artykuł, który znów mnie zdezorientował, ponieważ używali tylko normalnego rozkładu. Demšar mówi podobnie na stronie 12:

Statystyki testowe dla porównania klas i-tych i j-tych za pomocą tych metod to

z=(RiRj)k(k+1)6N
Wartość z służy do znalezienia odpowiedniego prawdopodobieństwa z tabeli rozkładu normalnego, która jest następnie porównywana z odpowiednim α. Testy różnią się sposobem dostosowania wartościα aby zrekompensować wiele porównań.

W tym akapicie mówił o porównaniu wszystkich algorytmów z algorytmem kontrolnym, ale uwaga „różni się sposobem, w jaki dostosowują się… w celu kompensacji wielu porównań” sugeruje, że powinno to dotyczyć również testu Nemenyi.

Logiczne wydaje mi się więc obliczenie wartości p na podstawie statystyki testuz, który jest zwykle dystrybuowany, i popraw ten, dzieląc k(k1)/2.

Daje to jednak zupełnie inne różnice rang, przy których można odrzucić hipotezę zerową. A teraz utknąłem i nie wiem, którą metodę zastosować. Opieram się mocno na tym, który używa rozkładu normalnego , ponieważ jest to dla mnie prostsze i bardziej logiczne. Nie muszę też szukać wartości w tabelach i nie jestem związany z pewnymi wartościami istotności.

Z drugiej strony nigdy nie pracowałem ze studencką statystyką zasięgu i nie rozumiem tego.

Wartownik
źródło

Odpowiedzi:

5

Właśnie zacząłem patrzeć na to pytanie.

Jak wspomniano wcześniej, kiedy używamy rozkładu normalnego do obliczania wartości p dla każdego testu, wówczas te wartości p nie uwzględniają wielokrotnego testowania. Aby to skorygować i kontrolować rodzinny wskaźnik błędów, potrzebujemy pewnych korekt. Bonferonni, tj. Podzielenie poziomu istotności lub pomnożenie surowych wartości p przez liczbę testów, jest tylko jedną możliwą poprawką. Istnieje wiele innych wielokrotnych poprawek testujących wartość p, które w wielu przypadkach są mniej konserwatywne.

Te korekty wartości p nie uwzględniają specyficznej struktury testów hipotez.

Bardziej zaznajomiłem się z parowaniem oryginalnych danych zamiast z danymi przekształconymi rangą, jak w testach Kruskala-Wallisa lub Friedmana. W takim przypadku, którym jest test Tukey HSD, statystyka testu dla wielokrotnego porównania jest rozkładana zgodnie ze studenckim rozkładem zakresów, który jest rozkładem dla wszystkich porównań parami przy założeniu niezależnych próbek. Opiera się na prawdopodobieństwach wielowymiarowego rozkładu normalnego, który można obliczyć przez całkowanie numeryczne, ale zwykle stosuje się go z tabel.

Sądzę, że ponieważ nie znam teorii, rozkład uczniowskiego zasięgu można zastosować w przypadku testów rangowych w podobny sposób, jak w parach porównawczych Tukey HSD.

Tak więc użycie (2) rozkładu normalnego plus wielokrotne testowanie poprawek wartości p i użycie (1) studenckich rozkładów zakresów to dwa różne sposoby uzyskania przybliżonego rozkładu statystyk testowych. Jeśli jednak założenia dotyczące zastosowania studenckiego rozkładu zasięgu są spełnione, powinno ono zapewnić lepsze przybliżenie, ponieważ jest ono zaprojektowane dla konkretnego problemu wszystkich porównań parami.

Josef
źródło
1

O ile mi wiadomo, porównując tylko 2 algorytmy, Demšar sugeruje podpisanie testu rang Wilcoxona zamiast Friedmana + posthoc. Niestety jestem tak samo zdezorientowany jak ty, jeśli chodzi o odszyfrowanie, co oznacza dzielenie Demšara przez k-1.

5xum
źródło
1
Dzielenie przez (k-1) ma miejsce, gdy porównujesz wiele algorytmów z metodą kontrolną. Ale to każdy w stosunku do każdego, więc NxN. Część dzielącą, którą rozumiem, ale związek z rozkładem zasięgu studenckim jest poza moim rozumieniem.
Sentry
@Sentry: Musisz pomnożyć tutaj współczynnik korygujący, a nie pomnożyć. Proszę zobaczyć moją odpowiedź powyżej.
Chris
0

Natknąłem się również na to pytanie, czy obliczyć wartość p z rozkładu normalnego czy studenckiego. Niestety nadal nie mogę na to odpowiedzieć, ponieważ różne artykuły komunikują różne metody.

Niemniej jednak w celu obliczenia skorygowanych wartości p należy pomnożyć nieskorygowaną wartość p przez współczynnik korygujący, np. P * (k-1) w przypadku porównań z jedną metodą kontroli lub p * ((k * (k-1) )) / 2) dla porównań nxn.

To, co powinieneś podzielić przez współczynnik dostosowania, to wartość alfa, w porównaniu z nieskorygowanymi wartościami p.

Chris
źródło