Typowym podejściem do rozwiązania problemu z klasyfikacją jest identyfikacja klasy modeli kandydujących, a następnie dokonanie wyboru modelu za pomocą procedury takiej jak walidacja krzyżowa. Zazwyczaj wybiera się model z najwyższą dokładnością lub jakąś powiązaną funkcję, która koduje informacje specyficzne dla problemu, takie jak.
Zakładając, że celem końcowym jest stworzenie dokładnego klasyfikatora (gdzie definicja dokładności jest znowu zależna od problemu), w jakich sytuacjach lepiej jest dokonać wyboru modelu przy użyciu właściwej reguły punktacji, a nie czegoś niewłaściwego, takiego jak dokładność, precyzja, przywołanie itp.? Ponadto zignorujmy problemy dotyczące złożoności modelu i załóżmy z góry, że uważamy wszystkie modele za równie prawdopodobne.
Wcześniej powiedziałbym, że nigdy. Wiemy, że w sensie formalnym klasyfikacja jest łatwiejszym problemem niż regresja [1], [2] i możemy ustalić ściślejsze granice dla tych pierwszych niż później (). Ponadto zdarzają się przypadki, gdy próba dokładnego dopasowania prawdopodobieństw może skutkować nieprawidłowymi granicami decyzji lub nadmiernym dopasowaniem . Jednak w oparciu o rozmowę tutaj i schemat głosowania społeczności w odniesieniu do takich kwestii, kwestionowałem ten pogląd.
- Devroye, Luc. Probabilistyczna teoria rozpoznawania wzorców. Vol. 31. springer, 1996., sekcja 6.7
- Kearns, Michael J. i Robert E. Schapire. Skuteczne, wolne od dystrybucji uczenie się pojęć probabilistycznych. Podstawy informatyki, 1990. Proceedings., 31th Annual Symposium on. IEEE, 1990.
To stwierdzenie może być trochę niechlujne. W szczególności mam na myśli dane podane w formularzu z i wydaje się, że łatwiej jest oszacować granicę decyzji niż dokładnie oszacować prawdopodobieństwa warunkowe.