Utrata L2, wraz z utratą L0 i L1, są trzema bardzo częstymi „domyślnymi” funkcjami strat stosowanymi przy sumowaniu a posteriori za pomocą minimalnej oczekiwanej straty a posteriori. Jednym z powodów może być to, że są one stosunkowo łatwe do obliczenia (przynajmniej dla rozkładów 1d), L0 daje wynik w trybie, L1 w medianie, a L2 oznacza średnią. Podczas nauczania mogę wymyślić scenariusze, w których L0 i L1 są funkcjami rozsądnej straty (a nie tylko „domyślnymi”), ale zmagam się ze scenariuszem, w którym L2 byłby funkcją rozsądnej straty. Więc moje pytanie:
Dla celów pedagogicznych, jaki byłby przykład sytuacji, gdy L2 jest dobrą funkcją utraty do obliczenia minimalnej straty tylnej?
Dla L0 łatwo jest wymyślić scenariusze z zakładów. Załóżmy, że obliczyłeś a posteriorę w stosunku do całkowitej liczby bramek w nadchodzącym meczu piłkarskim i zamierzasz postawić zakład, w którym wygrasz $$$, jeśli poprawnie odgadniesz liczbę goli i przegrasz inaczej. Zatem L0 jest funkcją rozsądnej straty.
Mój przykład L1 jest nieco wymyślony. Spotykasz przyjaciela, który przyjedzie na jedno z wielu lotnisk, a następnie przyjedzie do Ciebie samochodem, problem polega na tym, że nie wiesz, które lotnisko (i nie możesz zadzwonić do swojej przyjaciółki, ponieważ jest ona w powietrzu). Biorąc pod uwagę, z którego lotniska może wylądować, gdzie jest dobre miejsce, aby ustawić się tak, aby odległość między nią a tobą była niewielka, kiedy ona przyjedzie? Tutaj punkt, który minimalizuje spodziewaną utratę L1, wydaje się rozsądny, jeśli przyjmując uproszczone założenia, że jej samochód będzie jechał ze stałą prędkością bezpośrednio do Twojej lokalizacji. Oznacza to, że jedna godzina oczekiwania jest dwa razy gorsza niż 30 minut oczekiwania.
źródło
Odpowiedzi:
L2 jest „łatwy”. To jest to, co dostajesz domyślnie, jeśli wykonujesz standardowe metody macierzowe, takie jak regresja liniowa, SVD itp. Do czasu posiadania komputerów L2 była jedyną grą w mieście z wieloma problemami, dlatego wszyscy używają ANOVA, testów t itp. Łatwiej jest również uzyskać dokładną odpowiedź przy użyciu utraty L2 za pomocą wielu bardziej wyszukanych metod, takich jak procesy Gaussa, niż uzyskać dokładną odpowiedź przy użyciu innych funkcji utraty.
W związku z tym można uzyskać stratę L2 dokładnie przy użyciu przybliżenia Taylora drugiego rzędu, co nie dotyczy większości funkcji strat (np. Entropii krzyżowej). Ułatwia to optymalizację metodami drugiego rzędu, takimi jak metoda Newtona. Wiele metod radzenia sobie z innymi funkcjami strat nadal wykorzystuje metody utraty L2 pod maską z tego samego powodu (np. Iteracyjnie przeważone najmniejsze kwadraty, zintegrowane zagnieżdżone aproksymacje Laplace'a).
L2 jest ściśle związany z rozkładami Gaussa, a Twierdzenie o granicy centralnej czyni rozkłady Gaussa powszechne. Jeśli twój proces generowania danych jest (warunkowo) gaussowski, to L2 jest najbardziej wydajnym estymatorem.
Strata L2 rozkłada się ładnie z powodu zasady całkowitej wariancji. To sprawia, że niektóre modele graficzne ze zmiennymi ukrytymi są szczególnie łatwe do dopasowania.
L2 nieproporcjonalnie karze straszne prognozy. Może to być dobre lub złe, ale często jest całkiem rozsądne. Godzinne oczekiwanie może być średnio czterokrotnie gorsze niż 30-minutowe, jeśli powoduje to, że wiele osób nie udaje się na spotkanie.
źródło