Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

20

Precyzja jest zdefiniowana jako:

p = true positives / (true positives + false positives)

Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1?

To samo pytanie do przypomnienia:

r = true positives / (true positives + false negatives)

Obecnie wdrażam test statystyczny, w którym muszę obliczyć te wartości, a czasami zdarza się, że mianownik ma wartość 0, i zastanawiam się, jaką wartość zwrócić w tym przypadku.

PS: Przepraszam za nieodpowiednie tag, chciałem użyć recall, precisioni limit, ale nie mogę utworzyć jeszcze nowe tagi.

Björn Pollex
źródło
Nie sądzę, że potrzebujemy tagu limitu.
Prawdopodobnie próbujesz zmierzyć wydajność niektórych procedur diagnostycznych; czy jest jakiś powód, dla którego nie używasz odpowiedniej metryki teorii wykrywania sygnału, takiej jak d ', A' lub obszar pod krzywą ROC?
Mike Lawrence
3
@ Mike, precyzja i przywołanie są powszechnymi miernikami oceny, np. Przy wyszukiwaniu informacji, w których ROC, aw szczególności specyficzność jest niewygodna w użyciu, ponieważ już oczekujesz dużej liczby fałszywych trafień.
user979,

Odpowiedzi:

17

Biorąc pod uwagę macierz nieporozumień:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

wiemy to:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

Rozważmy przypadki, w których mianownik wynosi zero:

  • TP + FN = 0: oznacza, że ​​w danych wejściowych nie było przypadków dodatnich
  • TP + FP = 0: oznacza, że ​​wszystkie wystąpienia zostały przewidziane jako ujemne
Amro
źródło
9
Rozszerzanie twojej odpowiedzi: Jeśli TP = 0 (jak w obu przypadkach), przywołanie wynosi 1, ponieważ metoda nie wykryła wszystkich prawdziwych pozytywów; precyzja wynosi 0, jeśli jest jakikolwiek FP, a 1 w przeciwnym razie.
11

Odpowiedź brzmi: tak. Nieokreślone przypadki krawędzi występują, gdy prawdziwe pozytywy (TP) mają wartość 0, ponieważ jest to w mianowniku zarówno P, jak i R. W tym przypadku

  • Przypomnij = 1, gdy FN = 0, ponieważ odkryto 100% TP
  • Precyzja = 1, gdy FP = 0, ponieważ nie było żadnych fałszywych wyników

To jest przeformułowanie komentarza @ mbq.

John Lehmann
źródło
3

Znam inną terminologię. To, co nazywacie precyzją, miałbym dodatnią wartość predykcyjną (PPV). A to, co nazywacie pamięcią, nazwałbym czułością (Sens). :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

W przypadku czułości (przypomnienia), jeśli mianownik wynosi zero (jak wskazuje Amro), nie ma żadnych przypadków dodatnich, więc klasyfikacja jest bez znaczenia. (To nie powstrzymuje ani TP, ani FN jako zero, co spowodowałoby ograniczenie czułości 1 lub 0. Punkty te znajdują się odpowiednio w prawym górnym i lewym dolnym rogu krzywej ROC - TPR = 1 i TPR = 0. )

Limit PPV jest jednak znaczący. Możliwe jest ustawienie odcięcia testowego tak wysoko (lub nisko), aby wszystkie przypadki były przewidywane jako ujemne. Jest to początek krzywej ROC. Wartość graniczną PPV tuż przed punktem odcięcia osiąga początek można oszacować, biorąc pod uwagę ostatni odcinek krzywej ROC tuż przed początkiem. (Może to być lepsze do modelowania, ponieważ krzywe ROC są notorycznie głośne).

Na przykład, jeśli istnieje 100 rzeczywistych wyników pozytywnych i 100 faktów negatywnych, a końcowa konfiguracja krzywej ROC zbliża się od TPR = 0,08, FPR = 0,02, wówczas ograniczający PPV wynosiłby PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8, tj. 80% prawdopodobieństwa bycia prawdziwie dodatnim.

W praktyce każda próbka jest reprezentowana przez segment na krzywej ROC - poziomy dla rzeczywistego ujemnego i pionowy dla rzeczywistego dodatniego. Można oszacować ograniczające PPV według ostatniego segmentu przed pochodzeniem, ale dałoby to oszacowane ograniczające PPV wynoszące 1, 0 lub 0,5, w zależności od tego, czy ostatnia próbka była prawdziwie dodatnia, fałszywie dodatnia (faktycznie ujemna) czy wykonana równego TP i FP. Lepsze byłoby podejście do modelowania, być może przy założeniu, że dane są normalne - powszechne założenie, np .: http://mdm.sagepub.com/content/8/3/197.short

Thylacoleo
źródło
1

Zależy to od tego, co rozumiesz przez „podejście 0”. Jeśli zarówno fałszywie dodatnie, jak i fałszywie ujemne wyniki zbliżają się do zera w szybszym tempie niż wartości prawdziwie dodatnie, to tak na oba pytania. Ale niekoniecznie.

Rob Hyndman
źródło
Naprawdę nie znam stawki. Szczerze mówiąc wszystko, co wiem, to to, że mój program zawiesił się z podziałem na zero i że muszę jakoś poradzić sobie z tą sprawą.
Björn Pollex,