Intuicyjnie uzyskanie wysokiego P / R / F1 w małym zestawie danych lub w bardzo jednolitym / przewidywalnym zestawie danych jest prawdopodobnie łatwiejsze niż uzyskanie wysokiego P / R / F1 w większych lub bardziej chaotycznych zestawach danych. Dlatego poprawa P / R / F1 w większym i bardziej chaotycznym zbiorze danych jest bardziej znacząca.
Zgodnie z tą intuicją prawdopodobnie potrzebujesz dostępu do wyników metod „czarnej skrzynki”, aby zmierzyć różnicę w rozkładzie wyników, biorąc pod uwagę rozmiar i różnorodność w tym zestawie. Same P / R / F1 to prawdopodobnie zbyt mało informacji.
Testowanie istotności w tym ustawieniu jest zwykle wykonywane przez sformułowanie hipotezy zerowej (dwa algorytmy dają zawsze takie same dane wyjściowe), a następnie obliczenie prawdopodobieństwa zaobserwowania różnicy w danych wyjściowych obserwowanej, jeśli algorytmy byłyby rzeczywiście takie same. Jeśli na przykład prawdopodobieństwo jest mniejsze niż 0,05, odrzucasz hipotezę zerową i dochodzisz do wniosku, że poprawa jest znacząca.
Niniejszy dokument zawiera odpowiednie dyskusje:
http://www.aclweb.org/anthology/C00-2137