Średnia średnia dokładność a średnia wzajemna pozycja

12

Próbuję zrozumieć, kiedy należy użyć MAP i kiedy należy użyć MRR. Znalazłem prezentację, która stwierdza, że ​​MRR najlepiej jest wykorzystać, gdy liczba istotnych wyników jest mniejsza niż 5, a najlepiej, gdy wynosi 1. W innych przypadkach MAP jest odpowiedni. Mam dwa pytania:

  • Naprawdę nie rozumiem, dlaczego tak jest.
  • Nie mogę znaleźć cytowanego odniesienia do tego roszczenia.

Pamiętaj, że nie mam bardzo silnego zaplecza statystycznego, więc wyjaśnienie laika bardzo by pomogło. Dziękuję Ci.

KG
źródło

Odpowiedzi:

21

Wyobraź sobie, że masz jakieś zapytanie, a system wyszukiwania zwrócił ci listę 20 najlepszych pozycji, które według ciebie są najbardziej odpowiednie dla twojego zapytania. Teraz wyobraź sobie, że jest w tym podstawowa prawda, że ​​tak naprawdę możemy powiedzieć każdemu z tych 20, że „tak” to odpowiednia odpowiedź lub „nie” to nie jest.

Średnia wzajemna pozycja (MRR) daje ogólną miarę jakości w tych sytuacjach, ale MRR dba tylko o jeden odpowiedni najwyżej oceniany element . Jeśli twój system zwraca odpowiedni przedmiot w trzecim co do wielkości miejscu, na tym właśnie zależy MRR. Nie ma znaczenia, czy inne istotne elementy (zakładając, że są) mają rangę 4 lub 20.

Dlatego MRR jest odpowiedni do oceny systemu, w którym albo (a) jest tylko jeden istotny wynik, albo (b) w twoim przypadku użycia naprawdę zależy ci tylko na najwyższym rankingu. Może to być prawdą w niektórych scenariuszach wyszukiwania w Internecie, na przykład, gdy użytkownik chce tylko znaleźć jedną rzecz do kliknięcia, nie potrzebuje już więcej. (Chociaż jest to zazwyczaj prawda, czy byłbyś bardziej zadowolony z wyszukiwania w sieci, które zwróciło dziesięć całkiem dobrych odpowiedzi, i możesz sam zdecydować, który z nich kliknąć ...?)

Średnia średnia precyzja (MAP) bierze pod uwagę, czy wszystkie istotne pozycje mają wysoką pozycję w rankingu. Tak więc w przykładzie z pierwszej dwudziestki nie zależy tylko na tym, czy pod numerem 3 jest odpowiednia odpowiedź, ale zależy też, czy wszystkie pozycje „tak” z tej listy są u góry.

Gdy w zestawie danych jest tylko jedna odpowiednia odpowiedź, MRR i MAP są dokładnie równoważne w standardowej definicji MAP.

Aby zobaczyć dlaczego, rozważ następujące przykłady zabawek, zainspirowane przykładami w tym poście na blogu :

Przykład 1

Zapytanie: „Stolica Kalifornii”

Wyniki rankingowe: „Portland”, „Sacramento”, „Los Angeles”

Wyniki rankingowe (znaczenie binarne): [0, 1, 0]

Liczba możliwych poprawnych odpowiedzi: 1

Wzajemna ranga:12)

Dokładność na 1: 01

Precyzja przy 2: 12)

Precyzja o 3: 13)

Średnia precyzja = .1m12)=1112)=0,5

Jak widać, średnia precyzja dla zapytania z dokładnie jedną poprawną odpowiedzią jest równa wzajemnej rangi poprawnego wyniku. Wynika z tego, że MRR zbioru takich zapytań będzie równy MAP. Jednak, jak pokazano w poniższym przykładzie, sytuacja różni się, jeśli istnieje więcej niż jedna poprawna odpowiedź:

Przykład 2

Zapytanie: „Miasta w Kalifornii”

Wyniki rankingowe: „Portland”, „Sacramento”, „Los Angeles”

Wyniki rankingowe (znaczenie binarne): [0, 1, 1]

Liczba możliwych poprawnych odpowiedzi: 2

Wzajemna ranga:12)

Dokładność na 1: 01

Precyzja przy 2: 12)

Precyzja o 3: 2)3)

Średnia precyzja = .1m[12)+2)3)]=12)[12)+2)3)]=0,38

W związku z tym wybór MRR vs MAP zależy w tym przypadku całkowicie od tego, czy chcesz, aby rankingi po pierwszym poprawnym trafieniu wpłynęły.

Dan Stowell
źródło