Test istotności oparty na precyzji / wycofaniu / F1

12

Czy możliwe jest wykonanie testu istotności opartego wyłącznie na wynikach precyzji / odwołania / F1?

Na przykład, jeśli natrafisz na 2 systemy w dokumencie, dla którego zgłaszane są tylko P / R / F1 (w tym samym zbiorze danych itp.), Czy możesz następnie przeprowadzić test istotności statystycznej? Jeśli tak, jak to się robi?

Vam
źródło

Odpowiedzi:

4

Intuicyjnie uzyskanie wysokiego P / R / F1 w małym zestawie danych lub w bardzo jednolitym / przewidywalnym zestawie danych jest prawdopodobnie łatwiejsze niż uzyskanie wysokiego P / R / F1 w większych lub bardziej chaotycznych zestawach danych. Dlatego poprawa P / R / F1 w większym i bardziej chaotycznym zbiorze danych jest bardziej znacząca.

Zgodnie z tą intuicją prawdopodobnie potrzebujesz dostępu do wyników metod „czarnej skrzynki”, aby zmierzyć różnicę w rozkładzie wyników, biorąc pod uwagę rozmiar i różnorodność w tym zestawie. Same P / R / F1 to prawdopodobnie zbyt mało informacji.

Testowanie istotności w tym ustawieniu jest zwykle wykonywane przez sformułowanie hipotezy zerowej (dwa algorytmy dają zawsze takie same dane wyjściowe), a następnie obliczenie prawdopodobieństwa zaobserwowania różnicy w danych wyjściowych obserwowanej, jeśli algorytmy byłyby rzeczywiście takie same. Jeśli na przykład prawdopodobieństwo jest mniejsze niż 0,05, odrzucasz hipotezę zerową i dochodzisz do wniosku, że poprawa jest znacząca.

Niniejszy dokument zawiera odpowiednie dyskusje: http://www.aclweb.org/anthology/C00-2137

Pablo Mendes
źródło