W kilku konkurencjach kaggle punktacja opierała się na „loglossie”. Dotyczy to błędu klasyfikacji.
Oto odpowiedź techniczna, ale szukam intuicyjnej odpowiedzi. Naprawdę podobały mi się odpowiedzi na to pytanie dotyczące odległości Mahalanobisa, ale PCA to nie logloss.
Mogę wykorzystać wartość, którą przedstawia moje oprogramowanie klasyfikacyjne, ale tak naprawdę jej nie rozumiem. Dlaczego używamy go zamiast prawdziwych / fałszywie dodatnich / ujemnych stóp? Czy możesz mi pomóc, abym mógł to wyjaśnić mojej babci lub nowicjuszowi w terenie?
Podoba mi się i zgadzam się z cytatem:
tak naprawdę czegoś nie rozumiesz, chyba że możesz wyjaśnić to swojej babci
- Albertowi Einsteinowi
Próbowałem samodzielnie odpowiedzieć na to pytanie przed opublikowaniem tutaj.
Linki, które nie były intuicyjne lub naprawdę pomocne, obejmują:
- http://www.r-bloggers.com/making-sense-of-logarithmic-loss/
- https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function
- https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/
- https://www.kaggle.com/wiki/LogarithmicLoss
Są to informacje i dokładne. Są przeznaczone dla odbiorców technicznych. Nie rysują prostego obrazu ani nie dają prostych i dostępnych przykładów. Nie są napisane dla mojej babci.
źródło
Odpowiedzi:
Logloss jest logarytmem iloczynu wszystkich prawdopodobieństw. Załóżmy, że Alice przewidziała:
Okazało się, że Mary nie poślubiła Johna, Bill nie jest mordercą, ale John zabił Jacka. Iloczyn prawdopodobieństwa, według Alice, wynosi 0,2 * 0,999 * 0,99 = 0,197802
Bob przewidział:
Produkt ma wartość 0,5 * 0,5 * 0,5 = 0,125.
Alice jest lepszym predyktorem niż Bob.
źródło