Jak inne odpowiedzi poprawnie stwierdzają, zgłaszane prawdopodobieństwa z modeli takich jak regresja logistyczna i naiwne Bayesa są szacunkami prawdopodobieństwa klasy. Gdyby model był prawdziwy, prawdopodobieństwo rzeczywiście oznaczałoby prawdopodobieństwo poprawnej klasyfikacji.
Jednak ważne jest, aby zrozumieć, że może to być mylące, ponieważ model jest szacowany, a zatem nie jest poprawny. Istnieją co najmniej trzy problemy.
- Niepewność szacunków.
- Błędna specyfikacja modelu.
- Stronniczość.
Niepewność jest po prostu wszędzie obecny fakt, że prawdopodobieństwo to tylko szacunkowe. Przedział ufności szacowanego prawdopodobieństwa klasowego może dać pewne pojęcie o niepewności (prawdopodobieństwa klasowego, a nie klasyfikacji).
--
Jeśli procedura estymacji (celowo) zapewnia oszacowanie stronnicze , prawdopodobieństwa klasowe są błędne. Jest to coś, co widzę w metodach regularyzacji, takich jak lasso i grzbiet regresji logistycznej. Chociaż potwierdzony krzyżowo wybór regularyzacji prowadzi do modelu o dobrej wydajności pod względem klasyfikacji, wynikające z tego prawdopodobieństwa klasowe są wyraźnie niedoszacowane (zbyt blisko 0,5) w przypadkach testowych. Niekoniecznie jest to złe, ale należy o tym pamiętać.