Kiedy odpowiednia reguła punktacji jest lepszym oszacowaniem uogólnienia w warunkach klasyfikacji?

9

Typowym podejściem do rozwiązania problemu z klasyfikacją jest identyfikacja klasy modeli kandydujących, a następnie dokonanie wyboru modelu za pomocą procedury takiej jak walidacja krzyżowa. Zazwyczaj wybiera się model z najwyższą dokładnością lub jakąś powiązaną funkcję, która koduje informacje specyficzne dla problemu, takie jakFβ.

Zakładając, że celem końcowym jest stworzenie dokładnego klasyfikatora (gdzie definicja dokładności jest znowu zależna od problemu), w jakich sytuacjach lepiej jest dokonać wyboru modelu przy użyciu właściwej reguły punktacji, a nie czegoś niewłaściwego, takiego jak dokładność, precyzja, przywołanie itp.? Ponadto zignorujmy problemy dotyczące złożoności modelu i załóżmy z góry, że uważamy wszystkie modele za równie prawdopodobne.

Wcześniej powiedziałbym, że nigdy. Wiemy, że w sensie formalnym klasyfikacja jest łatwiejszym problemem niż regresja [1], [2] i możemy ustalić ściślejsze granice dla tych pierwszych niż później (). Ponadto zdarzają się przypadki, gdy próba dokładnego dopasowania prawdopodobieństw może skutkować nieprawidłowymi granicami decyzji lub nadmiernym dopasowaniem . Jednak w oparciu o rozmowę tutaj i schemat głosowania społeczności w odniesieniu do takich kwestii, kwestionowałem ten pogląd.

  1. Devroye, Luc. Probabilistyczna teoria rozpoznawania wzorców. Vol. 31. springer, 1996., sekcja 6.7
  2. Kearns, Michael J. i Robert E. Schapire. Skuteczne, wolne od dystrybucji uczenie się pojęć probabilistycznych. Podstawy informatyki, 1990. Proceedings., 31th Annual Symposium on. IEEE, 1990.

()To stwierdzenie może być trochę niechlujne. W szczególności mam na myśli dane podane w formularzuS={(x1,y1),,(xn,yn)} z xiX i yi{1,,K}wydaje się, że łatwiej jest oszacować granicę decyzji niż dokładnie oszacować prawdopodobieństwa warunkowe.

alt
źródło

Odpowiedzi:

4

Pomyśl o tym jako o porównaniu między t-test / test Wilcoxona i test mediany Mood. W teście mediany zastosowano optymalną klasyfikację (powyżej lub poniżej mediany dla zmiennej ciągłej), tak aby tylko straciła1πinformacji w próbie. Dychotomizacja w punkcie innym niż mediana utraci znacznie więcej informacji. Zastosowanie niewłaściwej reguły punktacji, takiej jak proporcja sklasyfikowana jako „poprawnie”, jest co najwyżej2π lub o 23wydajny. Powoduje to wybór niewłaściwych funkcji i znalezienie fałszywego modelu.

Frank Harrell
źródło
Chyba nie rozumiem, dlaczego dychotomizacja jest tak ważna. Ostatecznie celem jest wybór klasyfikatorah z jakiejś klasy hipotez H takie, że P(x,y)D(h(x)y) jest minimalny, biorąc pod uwagę skończoną próbkę S składający się z przykładów dystrybuowanych zgodnie z D.
alt
2
Problem polega na tym, że klasyfikacja (w przeciwieństwie do przewidywania ryzyka) jest niepotrzebną dychotomizacją.
Frank Harrell,
Czy zatem można bezpiecznie założyć, że odpowiedź na to pytanie nigdy nie jest, pod warunkiem, że celem jest optymalne podejmowanie decyzji przez Bayesa w odniesieniu do niektórych funkcji użyteczności i niedokładne dopasowanie prawdopodobieństwa?
alt
Optymalna decyzja Bayesa wymaga dobrze skalibrowanego przewidywanego ryzyka, więc oba są ze sobą powiązane. Optymalna decyzja nie wykorzystuje dychotomizacji dokonanej wcześniej w procesie, ale opiera się na pełnej informacji, np.Prob(Y=1|X=x) nie Prob(Y=1|X>c).
Frank Harrell,
1
Niezła dyskusja. W niektórych przypadkach, takich jak niektóre wykrywacze spamu, możesz uzyskać „niepewność”. Bardziej martwi mnie progowanie problemów, takich jak diagnoza medyczna i rokowanie.
Frank Harrell,