Precyzja jest zdefiniowana jako:
p = true positives / (true positives + false positives)
Czy jest to prawidłowe, że, jak true positives
i false positives
podejście 0, precyzja zbliża 1?
To samo pytanie do przypomnienia:
r = true positives / (true positives + false negatives)
Obecnie wdrażam test statystyczny, w którym muszę obliczyć te wartości, a czasami zdarza się, że mianownik ma wartość 0, i zastanawiam się, jaką wartość zwrócić w tym przypadku.
PS: Przepraszam za nieodpowiednie tag, chciałem użyć recall
, precision
i limit
, ale nie mogę utworzyć jeszcze nowe tagi.
precision-recall
data-visualization
logarithm
references
r
networks
data-visualization
standard-deviation
probability
binomial
negative-binomial
r
categorical-data
aggregation
plyr
survival
python
regression
r
t-test
bayesian
logistic
data-transformation
confidence-interval
t-test
interpretation
distributions
data-visualization
pca
genetics
r
finance
maximum
probability
standard-deviation
probability
r
information-theory
references
computational-statistics
computing
references
engineering-statistics
t-test
hypothesis-testing
independence
definition
r
censoring
negative-binomial
poisson-distribution
variance
mixed-model
correlation
intraclass-correlation
aggregation
interpretation
effect-size
hypothesis-testing
goodness-of-fit
normality-assumption
small-sample
distributions
regression
normality-assumption
t-test
anova
confidence-interval
z-statistic
finance
hypothesis-testing
mean
model-selection
information-geometry
bayesian
frequentist
terminology
type-i-and-ii-errors
cross-validation
smoothing
splines
data-transformation
normality-assumption
variance-stabilizing
r
spss
stata
python
correlation
logistic
logit
link-function
regression
predictor
pca
factor-analysis
r
bayesian
maximum-likelihood
mcmc
conditional-probability
statistical-significance
chi-squared
proportion
estimation
error
shrinkage
application
steins-phenomenon
Björn Pollex
źródło
źródło
Odpowiedzi:
Biorąc pod uwagę macierz nieporozumień:
wiemy to:
Rozważmy przypadki, w których mianownik wynosi zero:
źródło
Odpowiedź brzmi: tak. Nieokreślone przypadki krawędzi występują, gdy prawdziwe pozytywy (TP) mają wartość 0, ponieważ jest to w mianowniku zarówno P, jak i R. W tym przypadku
To jest przeformułowanie komentarza @ mbq.
źródło
Znam inną terminologię. To, co nazywacie precyzją, miałbym dodatnią wartość predykcyjną (PPV). A to, co nazywacie pamięcią, nazwałbym czułością (Sens). :
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
W przypadku czułości (przypomnienia), jeśli mianownik wynosi zero (jak wskazuje Amro), nie ma żadnych przypadków dodatnich, więc klasyfikacja jest bez znaczenia. (To nie powstrzymuje ani TP, ani FN jako zero, co spowodowałoby ograniczenie czułości 1 lub 0. Punkty te znajdują się odpowiednio w prawym górnym i lewym dolnym rogu krzywej ROC - TPR = 1 i TPR = 0. )
Limit PPV jest jednak znaczący. Możliwe jest ustawienie odcięcia testowego tak wysoko (lub nisko), aby wszystkie przypadki były przewidywane jako ujemne. Jest to początek krzywej ROC. Wartość graniczną PPV tuż przed punktem odcięcia osiąga początek można oszacować, biorąc pod uwagę ostatni odcinek krzywej ROC tuż przed początkiem. (Może to być lepsze do modelowania, ponieważ krzywe ROC są notorycznie głośne).
Na przykład, jeśli istnieje 100 rzeczywistych wyników pozytywnych i 100 faktów negatywnych, a końcowa konfiguracja krzywej ROC zbliża się od TPR = 0,08, FPR = 0,02, wówczas ograniczający PPV wynosiłby PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8, tj. 80% prawdopodobieństwa bycia prawdziwie dodatnim.
W praktyce każda próbka jest reprezentowana przez segment na krzywej ROC - poziomy dla rzeczywistego ujemnego i pionowy dla rzeczywistego dodatniego. Można oszacować ograniczające PPV według ostatniego segmentu przed pochodzeniem, ale dałoby to oszacowane ograniczające PPV wynoszące 1, 0 lub 0,5, w zależności od tego, czy ostatnia próbka była prawdziwie dodatnia, fałszywie dodatnia (faktycznie ujemna) czy wykonana równego TP i FP. Lepsze byłoby podejście do modelowania, być może przy założeniu, że dane są normalne - powszechne założenie, np .: http://mdm.sagepub.com/content/8/3/197.short
źródło
Zależy to od tego, co rozumiesz przez „podejście 0”. Jeśli zarówno fałszywie dodatnie, jak i fałszywie ujemne wyniki zbliżają się do zera w szybszym tempie niż wartości prawdziwie dodatnie, to tak na oba pytania. Ale niekoniecznie.
źródło