Dlaczego minimalizacja MAE prowadzi do prognozowania mediany, a nie średniej?

20

Z podręcznika Prognozowanie: Zasady i praktyka autorstwa Roba J Hyndmana i George'a Athanasopoulosa , w szczególności rozdziału dotyczącego pomiaru dokładności :

Metoda prognozy, która minimalizuje MAE, doprowadzi do prognoz mediany, a minimalizacja RMSE doprowadzi do prognoz średniej

Czy ktoś może podać intuicyjne wyjaśnienie, dlaczego minimalizacja MAE prowadzi do prognozowania mediany, a nie średniej? A co to oznacza w praktyce?

Zapytałem klienta: „co jest dla Ciebie ważniejsze, aby prognozy średnie były dokładniejsze lub aby uniknąć bardzo niedokładnych prognoz?”. Powiedział, że dokładniejsze prognozy środków mają wyższy priorytet. Czy w takim przypadku należy użyć MAE lub RMSE? Zanim przeczytałem ten cytat, wierzyłem, że MAE będzie lepszy na taki stan. A teraz wątpię.

Brans Ds
źródło

Odpowiedzi:

17

Warto cofnąć się o krok i na chwilę zapomnieć o aspekcie prognozowania. Rozważmy tylko dowolny rozkład i załóżmy, że chcemy go podsumować za pomocą pojedynczej liczby.fa

Bardzo wcześnie dowiadujesz się w swoich klasach statystycznych, że użycie oczekiwania jako podsumowania pojedynczej liczby zminimalizuje oczekiwany błąd kwadratu.fa

Teraz powstaje pytanie: dlaczego przy użyciu mediany z zminimalizować oczekiwany absolutny błąd?fa

W tym celu często polecam „Wizualizację mediany jako lokalizacji minimalnego odchylenia” Hanley i in. (2001, The American Statistician ) . Założyli mały aplet wraz z papierem, co niestety prawdopodobnie już nie działa w nowoczesnych przeglądarkach, ale możemy podążać za logiką w gazecie.

Załóżmy, że stoisz przed rzędem wind. Mogą być rozmieszczone w równych odstępach lub niektóre odległości między drzwiami windy mogą być większe niż inne (np. Niektóre windy mogą być nieczynne). Przed którym stoisz winda powinna mieć minimalną oczekiwaną spacer po jednym z windy nie przyjechać? Pamiętaj, że ten oczekiwany spacer odgrywa rolę oczekiwanego błędu bezwzględnego!

Załóżmy, że masz trzy windy A, B i C.

  • Jeśli czekasz przed A, być może będziesz musiał przejść od A do B (jeśli B dotrze) lub z A do C (jeśli C dotrze) - mijając B!
  • Jeśli czekasz przed B, musisz przejść z B do A (jeśli A przybywa) lub z B do C (jeśli C przybywa).
  • Jeśli czekasz przed C, musisz przejść z C do A (jeśli A przybywa) - mijając B - lub z C do B (jeśli B przybywa).

Zauważ, że od pierwszej i ostatniej pozycji oczekiwania jest odległość - AB w pierwszej, BC w ostatniej pozycji - że musisz chodzić w wielu przypadkach przybywających wind. Dlatego najlepiej postawić się przed środkową windą - niezależnie od ułożenia trzech wind.

Oto rysunek 1 autorstwa Hanleya i in .:

Hanley i wsp., Ryc. 1

Uogólnia to łatwo do więcej niż trzech wind. Lub do wind z różnymi szansami na przybycie jako pierwsze. Lub rzeczywiście do niezliczonej liczby wind. Możemy więc zastosować tę logikę do wszystkich dystrybucji dyskretnych, a następnie przejść do limitu, aby uzyskać ciągłe rozkłady.

fa^

fa^λln2)

Zatem jeśli podejrzewasz, że twój rozkład predykcyjny jest (lub powinien być) asymetryczny, jak w dwóch powyższych przypadkach, to jeśli chcesz uzyskać obiektywne prognozy oczekiwań, użyj . Jeśli rozkład można założyć symetrycznie (zazwyczaj w przypadku serii o dużej objętości), wówczas mediana i średnia pokrywają się, a użycie poprowadzi cię również do obiektywnych prognoz - a MAE jest łatwiejszy do zrozumienia.

Podobnie, minimalizacja może prowadzić do stronniczych prognoz, nawet dla rozkładów symetrycznych. Ta moja wcześniejsza odpowiedź zawiera symulowany przykład z asymetrycznie rozmieszczonymi ściśle dodatnimi (logarytmicznie rozłożonymi) seriami, które można znacząco prognozować punktowo przy użyciu trzech różnych prognoz punktowych, w zależności od tego, czy chcemy zminimalizować MSE, MAE czy MAPE.

S. Kolassa - Przywróć Monikę
źródło
9

Odpowiedź Stephana daje intuicyjne wyjaśnienie, dlaczego minimalizacja bezwzględnego średniego błędu daje medianę. Teraz, aby odpowiedzieć, którego MSE, MAE lub MAPE użyć:

MAE jest solidny , co oznacza, że ​​jest mniej wrażliwy na wartości odstające. Wyobraź sobie serię z błędem milion razy większym niż powinien. Na MSE pociągnie prognozę milion / N razy (gdzie N jest liczbą punktów), podczas gdy MAE zostanie wyciągnięta tylko za 1 jednostkę.

Niestety MAE nie jest wyjątkowa , więc może wykazywać pewne zachowania schizofreniczne.

Tak więc zalecam, aby najpierw utworzyć MSE, a następnie użyć parametrów MSE, aby rozpocząć regresję MAE.

W każdym razie porównaj obie prognozy: jeśli są bardzo różne, to w twoich danych jest coś śmierdzącego.

wprowadź opis zdjęcia tutajwprowadź opis zdjęcia tutaj

AlainD
źródło