Dlaczego warto korzystać z podstawowego średniego błędu kwadratu (RMSE) zamiast średniego bezwzględnego błędu (MAE)?
cześć
Badałem błąd wygenerowany w obliczeniach - początkowo obliczyłem błąd jako błąd pierwiastkowy znormalizowany do kwadratu.
Patrząc trochę bliżej, widzę, że efekt kwadratu błędu nadaje większą wagę większym błędom niż mniejszym, przekrzywiając oszacowanie błędu w kierunku nieparzystej wartości odstającej. Jest to dość oczywiste z perspektywy czasu.
Więc moje pytanie - w jakim przypadku błąd pierwiastkowy średni kwadrat byłby bardziej odpowiednią miarą błędu niż średni błąd bezwzględny? To ostatnie wydaje mi się bardziej odpowiednie, czy coś mi brakuje?
Aby to zilustrować, załączyłem poniższy przykład:
Wykres rozproszenia pokazuje dwie zmienne o dobrej korelacji,
dwa histogramy po prawej stronie przedstawiają błąd między Y (obserwowany) i Y (przewidywany) przy użyciu znormalizowanego RMSE (u góry) i MAE (u dołu).
Nie ma znaczących wartości odstających w tych danych, a MAE podaje mniejszy błąd niż RMSE. Czy jest jakaś racjonalność, inna niż MAE, która jest lepsza, aby zastosować jedną miarę błędu nad drugą?
źródło
Odpowiedzi:
To zależy od funkcji utraty. W wielu okolicznościach sensowne jest nadanie większej wagi punktom znajdującym się dalej od średniej - to znaczy, że nieobecność o 10 jest ponad dwa razy większa niż rezygnacja o 5. W takich przypadkach RMSE jest bardziej odpowiednią miarą błędu.
Jeśli nieobecność o dziesiątej jest tylko dwa razy gorsza niż rezygnacja o piątej, MAE jest bardziej odpowiednie.
W każdym razie nie ma sensu porównywanie ze sobą RMSE i MAE, tak jak w zdaniu od ostatniego do ostatniego („MAE daje mniejszy błąd niż RMSE”). MAE nigdy nie będzie wyższy niż RMSE ze względu na sposób ich obliczania. Mają sens tylko w porównaniu z tą samą miarą błędu: możesz porównać RMSE dla Metody 1 z RMSE dla Metody 2 lub MAE dla Metody 1 do MAE dla Metody 2, ale nie możesz powiedzieć, że MAE jest lepszy niż RMSE dla Metody 1, ponieważ jest mniejszy.
źródło
Oto kolejna sytuacja, w której chcesz użyć (R) MSE zamiast MAE: gdy rozkład warunkowy twoich obserwacji jest asymetryczny i chcesz bezstronnego dopasowania. (R) MSE jest zminimalizowane przez średnią warunkową , MAE przez warunkową medianę . Jeśli więc zminimalizujesz MAE, dopasowanie będzie bliższe medianie i stronnicze.
Oczywiście wszystko to zależy od funkcji utraty.
Ten sam problem występuje, jeśli używasz MAE lub (R) MSE do oceny prognoz lub prognoz . Na przykład, dane o wolumenie sprzedaży zwykle mają rozkład asymetryczny. Jeśli zoptymalizujesz MAE, możesz być zaskoczony, że prognoza optymalna dla MAE jest zerową prognozą.
Oto krótka prezentacja na ten temat , a oto niedawno zaproszony komentarz na temat konkursu prognozowania M4, w którym wyjaśniłem ten efekt .
źródło
N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)
? „Różnica” gęstości predykcyjnej byłaby minimalna, ale rzeczywistayhat
byłaby bezużyteczna. To prawda, że jest to skrajny przypadek. (Być może brakuje mi czegoś oczywistego, przepraszam za to z góry - nie mam dostępu do gazety tylko prezentacja.)RMSE to bardziej naturalny sposób opisywania strat w odległości euklidesowej. Dlatego jeśli zobrazujesz to w 3D, strata ma kształt stożka, jak widać powyżej na zielono. Dotyczy to również wyższych wymiarów, chociaż trudniej to sobie wyobrazić.
MAE można traktować jako odległość od miasta. To nie jest tak naturalny sposób pomiaru straty, jak widać na wykresie w kolorze niebieskim.
źródło