Jaki byłby przykład, gdy L2 jest dobrą funkcją utraty do obliczenia utraty tylnej?

9

Utrata L2, wraz z utratą L0 i L1, są trzema bardzo częstymi „domyślnymi” funkcjami strat stosowanymi przy sumowaniu a posteriori za pomocą minimalnej oczekiwanej straty a posteriori. Jednym z powodów może być to, że są one stosunkowo łatwe do obliczenia (przynajmniej dla rozkładów 1d), L0 daje wynik w trybie, L1 w medianie, a L2 oznacza średnią. Podczas nauczania mogę wymyślić scenariusze, w których L0 i L1 są funkcjami rozsądnej straty (a nie tylko „domyślnymi”), ale zmagam się ze scenariuszem, w którym L2 byłby funkcją rozsądnej straty. Więc moje pytanie:

Dla celów pedagogicznych, jaki byłby przykład sytuacji, gdy L2 jest dobrą funkcją utraty do obliczenia minimalnej straty tylnej?

Dla L0 łatwo jest wymyślić scenariusze z zakładów. Załóżmy, że obliczyłeś a posteriorę w stosunku do całkowitej liczby bramek w nadchodzącym meczu piłkarskim i zamierzasz postawić zakład, w którym wygrasz $$$, jeśli poprawnie odgadniesz liczbę goli i przegrasz inaczej. Zatem L0 jest funkcją rozsądnej straty.

Mój przykład L1 jest nieco wymyślony. Spotykasz przyjaciela, który przyjedzie na jedno z wielu lotnisk, a następnie przyjedzie do Ciebie samochodem, problem polega na tym, że nie wiesz, które lotnisko (i nie możesz zadzwonić do swojej przyjaciółki, ponieważ jest ona w powietrzu). Biorąc pod uwagę, z którego lotniska może wylądować, gdzie jest dobre miejsce, aby ustawić się tak, aby odległość między nią a tobą była niewielka, kiedy ona przyjedzie? Tutaj punkt, który minimalizuje spodziewaną utratę L1, wydaje się rozsądny, jeśli przyjmując uproszczone założenia, że ​​jej samochód będzie jechał ze stałą prędkością bezpośrednio do Twojej lokalizacji. Oznacza to, że jedna godzina oczekiwania jest dwa razy gorsza niż 30 minut oczekiwania.

Rasmus Bååth
źródło
Ostrzeżenie: L0 nie powoduje trybu ciągłych problemów ....
Xi'an
Hmm, tak, wiem, że mówienie w trybie L0 -> jest nieco niechlujne.
Rasmus Bååth,
2
Patrząc na odwrotne prawo kwadratowe, jeśli masz kilka źródeł światła umieszczonych tak, aby każdy punkt w kosmosie, który możemy wybrać, dostanie znikome światło ze wszystkich oprócz najbliższego źródła, użycie straty L2 byłoby równoznaczne z chęcią zminimalizowania, powiedzmy, liczby otrzymanych sekund na lumen. Nie mogę jednak wymyślić, dlaczego chcesz to zrobić, zamiast maksymalizować lumenów na sekundę.
Przypadkowy statystyk

Odpowiedzi:

4
  1. L2 jest „łatwy”. To jest to, co dostajesz domyślnie, jeśli wykonujesz standardowe metody macierzowe, takie jak regresja liniowa, SVD itp. Do czasu posiadania komputerów L2 była jedyną grą w mieście z wieloma problemami, dlatego wszyscy używają ANOVA, testów t itp. Łatwiej jest również uzyskać dokładną odpowiedź przy użyciu utraty L2 za pomocą wielu bardziej wyszukanych metod, takich jak procesy Gaussa, niż uzyskać dokładną odpowiedź przy użyciu innych funkcji utraty.

  2. W związku z tym można uzyskać stratę L2 dokładnie przy użyciu przybliżenia Taylora drugiego rzędu, co nie dotyczy większości funkcji strat (np. Entropii krzyżowej). Ułatwia to optymalizację metodami drugiego rzędu, takimi jak metoda Newtona. Wiele metod radzenia sobie z innymi funkcjami strat nadal wykorzystuje metody utraty L2 pod maską z tego samego powodu (np. Iteracyjnie przeważone najmniejsze kwadraty, zintegrowane zagnieżdżone aproksymacje Laplace'a).

  3. L2 jest ściśle związany z rozkładami Gaussa, a Twierdzenie o granicy centralnej czyni rozkłady Gaussa powszechne. Jeśli twój proces generowania danych jest (warunkowo) gaussowski, to L2 jest najbardziej wydajnym estymatorem.

  4. Strata L2 rozkłada się ładnie z powodu zasady całkowitej wariancji. To sprawia, że ​​niektóre modele graficzne ze zmiennymi ukrytymi są szczególnie łatwe do dopasowania.

  5. L2 nieproporcjonalnie karze straszne prognozy. Może to być dobre lub złe, ale często jest całkiem rozsądne. Godzinne oczekiwanie może być średnio czterokrotnie gorsze niż 30-minutowe, jeśli powoduje to, że wiele osób nie udaje się na spotkanie.

David J. Harris
źródło
2
Hmm, to, o co mi chodziło, było bardziej sytuacją decyzyjną, w której L2 byłby funkcją rozsądnej straty. Podobnie jak scenariusz podobny do dwóch przykładów w moim pytaniu, ale dla L2.
Rasmus Bååth,
1
@ RasmusBååth Nie jestem pewien argumentu za dokładnym wyrównywaniem straty (oprócz powiązania z procesami generowania danych Gaussa w punkcie 3), ale nr 5 jest argumentem za jakąś funkcją przyspieszającej straty. Do drugiego rzędu każda taka funkcja będzie pasować do utraty L2.
David J. Harris
@ DavidJ.Harris Właściwie nr 5 jest niepoprawny. W takim przypadku skorzystaj z utraty L1 abs (xy), aby zminimalizować frustrację = czas². Używanie straty (xy) ² do czasu, jak sugerowałeś, da ci nieoptymalny wynik.
Íhor Mé
@ ÍhorMé Myślę, że muszę cię źle rozumieć. Wygląda na to, że mówisz, że najlepszym sposobem na zminimalizowanie błędu kwadratu jest zminimalizowanie straty bezwzględnej , a nie normy L2.
David J. Harris
@ DavidJ.Harris Tak, starałem się stwierdzić, że jest to problem minimalizacji „złości” (= różnicy czasu²), a nie zasadniczo czasu spędzonego na czekaniu, ale myślę, że początkowo źle zrozumiałem eksperyment myślowy. Teraz, gdy go ponownie czytam, L2 jest legalnym sposobem na przejście od minimalizacji różnicy czasu do minimalizacji „zła”. Chociaż muszę powiedzieć, że najlepiej jest, aby programista najpierw poprawnie zidentyfikował, jaką „złą” chce zminimalizować, a następnie uzyskać tę wartość, a następnie zminimalizować przez L1. W takim przypadku najpierw otrzymujesz (różnicę czasu) ², a następnie minimalizujesz straty L1. Idź z L2 tylko wtedy, gdy wiesz, co robisz.
Íhor Mé