Funkcja celu, funkcja kosztu, funkcja straty: czy to to samo?

80

W uczeniu maszynowym ludzie mówią o funkcji celu, funkcji kosztu, funkcji straty. Czy to tylko różne nazwy tego samego? Kiedy ich używać? Jeśli nie zawsze odnoszą się do tej samej rzeczy, jakie są różnice?

machine-learning terminology artificial-intelligence Kosz
źródło

2

Zobacz także stats.stackexchange.com/questions/73221/...

Nick Cox

130

Nie są to bardzo surowe warunki i są ze sobą ściśle powiązane. Jednak:

Funkcja straty jest zwykle funkcją zdefiniowaną w punkcie danych, prognozie i etykiecie i mierzy karę. Na przykład:
- strata kwadratowa , stosowane w regresji liniowej $l(f(x_i|\theta),y_i) = \left (f(x_i|\theta)-y_i \right )^2$
- utrata zawiasu , stosowane w SVM $l(f(x_i|\theta), y_i) = \max(0, 1-f(x_i|\theta)y_i)$
- Strata 0/1 , wykorzystane w analizie teoretycznej i definicji dokładności $l(f(x_i|\theta), y_i) = 1 \iff f(x_i|\theta) \neq y_i$
Funkcja kosztów jest zwykle bardziej ogólna. Może to być suma funkcji strat w zestawie treningowym plus pewna kara za złożoność modelu (regularyzacja). Na przykład:
- Mean Squared Error $MSE(\theta) = \frac{1}{N} \sum_{i=1}^N \left (f(x_i|\theta)-y_i \right )^2$
- Funkcja kosztu (istnieją dodatkowe ograniczenia łączące z i zestawem treningowym) $SVM(\theta) = \|\theta\|^2 + C \sum_{i=1}^N \xi_i$ $\xi_i$ $C$
Funkcja celu jest najogólniejszym terminem określającym każdą funkcję zoptymalizowaną podczas treningu. Na przykład prawdopodobieństwo wygenerowania zestawu treningowego w podejściu maksymalnego prawdopodobieństwa jest dobrze zdefiniowaną funkcją celu, ale nie jest to funkcja straty ani funkcja kosztu (jednak można zdefiniować równoważną funkcję kosztu). Na przykład:
- MLE jest rodzajem funkcji celu (którą maksymalizujesz)
- Rozbieżność między klasami może być funkcją obiektywną, ale jest to zaledwie funkcja kosztu, chyba że zdefiniujesz coś sztucznego, na przykład 1-Rozbieżność, i nazwiesz to kosztem

Krótko mówiąc, powiedziałbym, że:

Funkcja straty jest częścią funkcji kosztu, która jest rodzajem funkcji celu.

lejlot
źródło

9

+1. Nie widziałem źródła tego, ale zgadłem, że „cel” jest terminem używanym, ponieważ Twoim celem jest optymalizacja tej funkcji, co może oznaczać maksymalizację czegoś dobrego lub zminimalizowanie czegoś złego, chociaż ta różnica jest banalna, jakakolwiek funkcja może być zanegowana. W przeciwieństwie do tego, gryzą go pejoratywne podteksty „straty” i „kosztu”: powiedziałbym, że używanie jednego z tych terminów byłoby przewrotne, gdyby nie coś, co należy zminimalizować. Te uwagi są milczące w twojej dobrej odpowiedzi, ale zasługują na nieco większy nacisk.

Nick Cox

1

„M” w „MLE” oznacza „maksimum”, a nie „minimum”. Wspominam tylko o tym pedantycznym szczególe, ponieważ to pytanie zostało przeniesione z przepełnienia stosu, a wcześniej ugryzł mnie błąd minimalizacji niewłaściwej funkcji

Taylor

W rzeczywistości funkcja celu jest funkcją (np. Funkcją liniową), którą próbujesz zoptymalizować (zwykle poprzez minimalizację lub maksymalizację) pod ograniczeniem funkcji straty (np. L1, L2). Przykładami są regresja kalenicy lub SVM. Możesz także zoptymalizować funkcję celu bez funkcji utraty, np. Prosty OLS lub logit.

g3o2

1

@ Nick Cox napisał „pejoratywne podteksty„ strata ”i„ koszt ”gryzą: powiedziałbym, że przewrotne byłoby używanie któregokolwiek z terminów, z wyjątkiem czegoś, co można by zminimalizować„ Nie zgadzam się, można zmaksymalizować straty lub koszty w celu znaleźć najgorszy możliwy przypadek (z zastrzeżeniem wszelkich ograniczeń). Może to być przydatne do analizy najgorszych przypadków.

Mark L. Stone,

Trudno mi utrzymać różnicę między „stratą” a „kosztem” prosto, inaczej niż przy zapamiętywaniu na pamięć. Problem polega na tym, że angielskie definicje słów nie dają żadnych wskazówek co do tego, które powinny być, ani też nie ma oczywistej mnemoniki. Wszelkie sugestie są mile widziane.

Stephen

8

Według prof. Andrew Ng (patrz slajdy na stronie 11),

Funkcja h (X) reprezentuje twoją hipotezę. Dla stałych parametrów dopasowania theta jest to funkcja cech X. Powiedziałbym, że można to również nazwać funkcją celu.

Funkcja kosztu J jest funkcją theta parametrów dopasowania. J = J (theta).

Według podręcznika Hastie i wsp. „Elements of Statistics Learning” , s. 37:

„Szukamy funkcji f (X) do przewidywania Y na podstawie danych wejściowych X.” [...] funkcja straty L (Y, f (X)) to „funkcja karania błędów w prognozowaniu”,

Wydaje się więc, że „funkcja straty” jest terminem nieco bardziej ogólnym niż „funkcja kosztu”. Jeśli szukasz „straty” w tym pliku PDF, myślę, że używają one „funkcji kosztu” i „funkcji straty” nieco synonimicznie.

Rzeczywiście, str. 502

„Sytuacja [w grupowaniu] jest nieco podobna do specyfikacji funkcji straty lub kosztu w problemach z prognozowaniem (uczenie nadzorowane)”.

Może te warunki istnieją, ponieważ ewoluowały niezależnie w różnych społecznościach akademickich. „Funkcja celu” to stary termin używany w badaniach operacyjnych i matematyce inżynierskiej. „Funkcja strat” może być częściej używana przez statystów. Ale spekuluję tutaj.

knb
źródło

5

funkcja strat nie jest wcale bardziej „bardziej ogólna” niż funkcja kosztów. f (X) jest w szczególności funkcją twoich parametrów (a więc J (theta)), co czyni ją (funkcją straty) szczególnym rodzajem funkcji kosztów. Co więcej, Hastie ma tam uproszczenie, zakłada funkcje straty addytywnej , które tworzą szczególną klasę funkcji kosztów

lejlot,

Próbowałem tylko odpowiedzieć na to pytanie referencjami z literatury akademickiej, źródeł łatwych do zrozumienia. Twój punkt „funkcji utraty addytywnej” może być słuszny, ale wykracza daleko poza zakres

zadanego

3

Esl to świetna książka, ale nie jedyne źródło wiedzy o Ml.

lejlot

Czy to „powiedziałbym” od Ng czy od ciebie? h jest modelem (h dla hipotezy). Celem jest, aby h działał dobrze. Funkcja celu mierzy, jak dobrze h ma i zwykle różni się od h.

Joachim Wagner

link do esl jest zepsuty

Talespin_Kit

4

Słowami Andrew NG-

„Wreszcie funkcja straty została zdefiniowana w odniesieniu do jednego przykładu szkolenia. Mierzy to, jak dobrze sobie radzisz na jednym przykładzie szkolenia. Teraz zdefiniuję coś, co nazywa się funkcją kosztu, która mierzy, jak dobrze jesteś wykonując cały zestaw treningowy. Zatem funkcja kosztu J, która jest zastosowana do waszych parametrów W i B, będzie średnią z jednym z m sumy funkcji straty zastosowanej do każdego z przykładów treningu i tury. ”

Mukul Khanna
źródło

3

Z sekcji 4.3 „Głębokiego uczenia się” - Ian Goodfellow, Yoshua Bengio, Aaron Courville http://www.deeplearningbook.org/

„Funkcja, którą chcemy zminimalizować lub zmaksymalizować, nazywa się funkcją celu lub kryterium. Kiedy ją minimalizujemy, możemy również nazwać ją funkcją kosztu, funkcją straty lub funkcją błędu. W tej książce używamy tych terminów zamiennie, chociaż niektóre publikacje dotyczące uczenia maszynowego przypisują specjalne znaczenie niektórym z tych terminów ”.

W tej książce przynajmniej strata i koszt są takie same.

François Brault
źródło

0

Aby dać ci krótką odpowiedź, według mnie są one synonimami. Jednak funkcja kosztu jest używana częściej w problemie optymalizacji, a funkcja straty jest używana do szacowania parametrów.

Rohan Chikorde
źródło

0

Pojęcia funkcji kosztów i strat są synonimami, niektórzy nazywają to także funkcją błędu. Bardziej ogólnym scenariuszem jest najpierw zdefiniowanie funkcji celu, którą chcemy zoptymalizować. Ta funkcja celu może być

zmaksymalizować prawdopodobieństwa tylne (np. naiwny Bayes)
zmaksymalizować funkcję fitness (programowanie genetyczne)
zmaksymalizować całkowitą funkcję nagrody / wartości (nauka wzmocnienia)
zmaksymalizować zysk / zminimalizować zanieczyszczenia węzłów potomnych (klasyfikacja drzewa decyzyjnego CART) 5. zminimalizować funkcję kosztu (lub straty) błędu średniego kwadratu (CART, regresja drzewa decyzyjnego, regresja liniowa, adaptacyjne neurony liniowe,…
zmaksymalizować prawdopodobieństwo dziennika lub zminimalizować funkcję utraty (lub kosztu) entropii krzyżowej zminimalizować utratę zawiasów (maszyna wektorów nośnych)

Abhishek Sharma
źródło

0

Właściwie być proste Jeśli masz m danych treningowych takich jak ten (x (1), y (1)), (x (2), y (2)),. . . (x (m), y (m)) Używamy funkcji straty L (ycap, y), aby znaleźć stratę między ycap ay pojedynczego zestawu treningowego Jeśli chcemy znaleźć stratę między ycap ay całego zestawu treningowego, którego używamy funkcja kosztów.

Uwaga: - ycap oznacza wynik z naszego modelu, a y oznacza oczekiwany wynik

Uwaga: - Credit idzie Andrew ng Resource: sieć neuronowa coursera i głębokie uczenie się

Mohan S.
źródło

-1

Funkcja utraty oblicza błąd dla pojedynczego przykładu szkolenia, podczas gdy funkcja kosztu jest średnią funkcji utraty całego zestawu szkoleń.

Levan
źródło

Spójrz na link Nicka Coxa.

Michael Chernick

Funkcja celu, funkcja kosztu, funkcja straty: czy to to samo?

Odpowiedzi: