Jaka jest różnica między funkcją straty a funkcją decyzji?

Odpowiedzi:

45

Funkcja decyzyjna to funkcja, która pobiera zestaw danych jako dane wejściowe i podaje decyzję jako dane wyjściowe. Decyzja może zależeć od rodzaju problemu. Przykłady obejmują:

  • Problemy z oszacowaniem: „decyzja” jest oszacowaniem.
  • Problemy z testowaniem hipotez: decyzja polega na odrzuceniu lub odrzuceniu hipotezy zerowej.
  • Problemy z klasyfikacją: decyzja polega na zaklasyfikowaniu nowej obserwacji (lub obserwacji) do kategorii.
  • Problemy z wyborem modelu: decyzja dotyczy wyboru jednego z modeli kandydujących.

Zazwyczaj istnieje nieskończona liczba funkcji decyzyjnych dostępnych dla problemu. Jeśli na przykład jesteśmy zainteresowani oszacowaniem wzrostu szwedzkich mężczyzn na podstawie dziesięciu obserwacji , możemy użyć dowolnej z następujących funkcji decyzyjnych d ( x ) :x=(x1,x2,,x10)d(x)

  • Średnia próbki: .d(x)=110i=110xi
  • Mediana próby: d(x)=median(x)
  • Średnia geometryczna próbki: d(x)=x1x1010
  • Funkcja, która zawsze zwraca 1: , niezależnie od wartości x . Głupie, tak, ale mimo to jest to ważna funkcja decyzyjna.d(x)=1x

Jak zatem ustalić, z których z tych funkcji decyzyjnych skorzystać? Jednym ze sposobów jest użycie funkcji straty , która opisuje stratę (lub koszt) związaną ze wszystkimi możliwymi decyzjami. Różne funkcje decyzyjne będą prowadzić do różnych rodzajów błędów. Funkcja utraty mówi nam, jakiego rodzaju błędów powinniśmy się bardziej przejmować. Najlepszą funkcją decyzyjną jest funkcja, która przynosi najniższą oczekiwaną stratę . To, co należy rozumieć przez oczekiwaną stratę, zależy od tego ustawienia (w szczególności, czy mówimy o statystykach częstych czy bayesowskich ).

W podsumowaniu:

  • Funkcje decyzyjne służą do podejmowania decyzji na podstawie danych.
  • Funkcje strat służą do określenia, której funkcji decyzyjnej należy użyć.
MånsT
źródło
Dla parametrycznych funkcji decyzyjnych (np. Regresji logistycznej, decyzji progowej) w zasadzie masz jedną możliwą funkcję dla każdej kombinacji parametrów, a funkcja straty służy do znalezienia najlepszej. Typowy przykład: jeśli używasz opadania gradientu do eksploracji przestrzeni parametrów, uzyskujesz stratę w odniesieniu do parametrów i schodzisz do (lokalnego) minimum straty.
pixelou
7

Funkcja straty jest minimalizowana, aby uzyskać model, który jest w pewnym sensie optymalny. Sam model ma funkcję decyzyjną, która służy do przewidywania.

Na przykład w klasyfikatorach SVM:

  • funkcja utraty: minimalizuje błąd i podniesioną do kwadratu normę oddzielającej hiperpłaszczyzny L.(w,ξ)=12)w2)+dojaξja
  • funkcja decyzyjna: podpisana odległość do hiperpłaszczyzny oddzielającej: fa(x)=wT.x+b
Marc Claesen
źródło
Czy norma nie jest równa odległości, czy też coś tu pomieszam ... Więc funkcja decyzyjna jest zawsze częścią funkcji straty, której używam do „porównywania” z rzeczywistymi wartościami, do których próbuję naprawić model? A celem jest zminimalizowanie tej „różnicy”?
www.pieronigro.de
@ Przerwa norma oddzielającej hiperpłaszczyzny (która jest optymalizowana podczas szkolenia SVM) nie jest używana w funkcji decyzyjnej. Używany jest sam hiperpłaszczyzna. Minimalizowanie normy podczas treningu to w zasadzie forma regularyzacji.
Marc Claesen
Lepiej byłoby udzielić bardziej ogólnej odpowiedzi, która nie jest powiązana z żadnym konkretnym klasyfikatorem.
smci