Obawiam się, że powiązane pytania nie odpowiedziały na moje. Oceniamy wyniki> 2 klasyfikatorów (uczenie maszynowe). Nasza hipoteza zerowa mówi, że wyniki nie różnią się. Aby ocenić tę hipotezę, wykonujemy testy parametryczne (ANOVA) i nieparametryczne (Friedman). Jeśli są znaczące, chcemy dowiedzieć się, którzy klasyfikatorzy różnią się w zadaniu post-hoc.
Moje pytanie jest dwojakie:
1) Czy korekta wartości p po testach wielokrotnych porównań jest w ogóle konieczna? Niemiecka strona Wikipedii na „Alphafehler Kumulierung” mówi, że problem występuje tylko wtedy, gdy testowanych jest wiele hipotez na tych samych danych. Porównując klasyfikatory (1,2), (1,3), (2,3), dane tylko częściowo się pokrywają. Czy nadal konieczne jest poprawienie wartości p?
2) Korekta wartości p jest często stosowana po testach parami z testem t. Czy jest to również konieczne podczas wykonywania specjalistycznych testów post hoc, takich jak test Nemenyi (nieparametryczny) lub test HSD Tukeya? Ta odpowiedź brzmi „nie” dla HSD Tukeya: Czy test HSD Tukey jest prawidłowy dla wielu porównań? . Czy istnieje reguła, czy muszę to sprawdzać przy każdym potencjalnym teście post-hoc?
Dzięki!
Odpowiedzi:
Odpowiedź na pytanie 1
Musisz uwzględnić wielokrotne porównania, jeśli zależy Ci na prawdopodobieństwie popełnienia błędu typu I. Prosta kombinacja eksperymentu metafora / myśl może pomóc:
Jeśli nie przejmujesz się błędami i nie dbasz o ludzi wielokrotnie i kpiąco kierujących twoją uwagę na pewną kreskówkę o żelkach , śmiało i nie dostosowuj się do wielu porównań.
Problem „tych samych danych” pojawia się w rodzinnych metodach korekcji błędów (np. Bonferroni, Holm-Sidák itp.), Ponieważ pojęcie „rodziny” jest nieco niejasne. Jednak metody fałszywego wskaźnika wykrywalności (np. Benjamini i Hochberg, Benjamini i Yeuketeli itp.) Mają właściwość polegającą na tym, że ich wyniki są wiarygodne w różnych grupach wnioskowania.
źródło