Czy minimalizowanie błędu kwadratu jest równoważne minimalizowaniu błędu bezwzględnego? Dlaczego błąd kwadratowy jest bardziej popularny niż ten drugi?

38

Kiedy przeprowadzamy regresję liniową aby dopasować kilka punktów danych , klasyczne podejście minimalizuje błąd kwadratu. Od dawna zastanawia mnie pytanie, które zminimalizowanie błędu kwadratu da taki sam wynik, jak zminimalizowanie błędu absolutnego ? Jeśli nie, dlaczego minimalizacja błędu kwadratu jest lepsza? Czy istnieje powód inny niż „funkcja celu jest różniczkowalna”?y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

Błąd kwadratowy jest również szeroko stosowany do oceny wydajności modelu, ale błąd bezwzględny jest mniej popularny. Dlaczego błąd kwadratowy jest częściej używany niż błąd bezwzględny? Jeśli nie bierze się pochodnych, obliczenie błędu bezwzględnego jest tak proste, jak obliczenie błędu do kwadratu, to dlaczego błąd kwadratowy jest tak powszechny ? Czy jest jakaś wyjątkowa zaleta, która może wyjaśnić jej rozpowszechnienie?

Dziękuję Ci.

Tony
źródło
Zawsze jest jakiś problem z optymalizacją i chcesz móc obliczyć gradienty, aby znaleźć minimum / maksimum.
Vladislavs Dovgalecs
11
x2<|x|dla ijeśli . W ten sposób błąd kwadratu penalizuje większe błędy niż błąd bezwzględny i bardziej wybacza małe błędy niż błąd bezwzględny. Jest to zgodne z tym, co wielu uważa za właściwy sposób robienia rzeczy. x(1,1)x2>|x||x|>1
Dilip Sarwate 18.04.15

Odpowiedzi:

46

Minimalizowanie błędów kwadratowych (MSE) zdecydowanie nie jest tym samym, co minimalizowanie bezwzględnych odchyleń (MAD) błędów. MSE zapewnia średnią odpowiedź uwarunkowaną na , podczas gdy MAD zapewnia medianę odpowiedzi uwarunkowaną na .yxyx

Historycznie Laplace początkowo uważał maksymalny zaobserwowany błąd za miarę poprawności modelu. Wkrótce zajął się rozważaniem MAD . Ze względu na jego niezdolność do dokładnego rozwiązania obu sytuacji, wkrótce zastanowił się nad różnicowym MSE. On i Gauss (pozornie równolegle) wyprowadzili normalne równania, zamknięte rozwiązanie tego problemu. Obecnie rozwiązywanie MAD jest stosunkowo łatwe dzięki programowaniu liniowemu. Jak jednak wiadomo, programowanie liniowe nie ma rozwiązania w formie zamkniętej.

Z punktu widzenia optymalizacji oba odpowiadają funkcjom wypukłym. Jednak MSE można różnicować, co pozwala na stosowanie metod opartych na gradiencie, znacznie wydajniejszych niż ich nieodróżnialny odpowiednik. MAD nie jest rozróżnialny przy .x=0

Kolejnym teoretycznym powodem jest to, że w ustawieniu bayesowskim, przy założeniu jednolitych priorytetów parametrów modelu, MSE daje normalne błędy rozproszone, co zostało uznane za dowód poprawności metody. Teoretycy lubią rozkład normalny, ponieważ wierzą, że jest to fakt empiryczny, podczas gdy eksperymentatorom się podoba, ponieważ wierzą, że jest to wynik teoretyczny.

Ostatnim powodem, dla którego MSE mogło mieć tak szeroką akceptację, jest fakt, że jest on oparty na odległości euklidesowej (w rzeczywistości jest to rozwiązanie problemu rzutowania na euklidesową przestrzeń banach), co jest niezwykle intuicyjne, biorąc pod uwagę naszą geometryczną rzeczywistość.

Asterion
źródło
1
(+1) w odniesieniu do Laplace'a!
Xi'an
2
„Teoretycy lubią rozkład normalny, ponieważ wierzą, że jest to fakt empiryczny, podczas gdy eksperymentatorom się podoba, ponieważ wierzą, że jest to wynik teoretyczny”. -- Kocham to. Ale czy nie istnieją również bezpośrednie zastosowania fizyki dla rozkładu Gaussa?
8
@ssdecontrol Myślę, że epigramat jest dziełem Henri Poincaré nieco ponad sto lat temu. Tout le monde y croit cependant, me disait un jour M. Lippmann, car les expérimentateurs s'obraz wyobrażony que c'est un théorème de matématiques, et les mathématiciens que c'est un fait expérimental. „Wszyscy są pewni [tego, że błędy są zwykle rozpowszechniane], powiedział mi pewnego dnia pan Lippman, ponieważ eksperymentaliści uważają, że jest to twierdzenie matematyczne, a matematycy to fakt ustalony eksperymentalnie”. z Calcul des probabilités (wyd. 2, 1912), s. 1. 171
Dilip Sarwate,
1
Oto matematyczna odpowiedź. Jeśli mamy macierz danych zmiennych niezależnych X i macierz kolumnową Y, to jeśli mamy macierz b o właściwości Xb = Y, mamy soln. Zwykle nie możemy i chcemy, aby b było „najbliższe” dokładnemu rozwiązaniu. Jako matematyka jest to „łatwe” do rozwiązania. Jest to rzut Y na przestrzeń kolumny X. Pojęcia rzutowania i prostopadłości itp., Zależą od metryki. Zwykła miara Euclidean L2 jest tym, do czego jesteśmy przyzwyczajeni i daje najmniejsze kwadraty. Minimalizująca właściwość mse jest ponownym potwierdzeniem faktu, że mamy projekcję.
aginensky
1
Myślałem, że najważniejszy spór dotyczy Gaussa i Legendre, przy czym Legendre poprzedza Gaussa w publikowaniu, ale Gauss poprzedza Legendre w nieformalnej korespondencji. Jestem także (niejasno) świadomy, że dowód Laplace'a jest uważany za lepszy. Wszelkie odniesienia do nich?
PatrickT,
31

Jako alternatywne wyjaśnienie rozważ następującą intuicję:

Minimalizując błąd, musimy zdecydować, jak ukarać te błędy. Rzeczywiście, najprostszym podejściem do karania błędów byłoby użycie linearly proportionalfunkcji kary. Przy takiej funkcji każde odchylenie od średniej otrzymuje proporcjonalny błąd odpowiadający. Dwukrotnie większa od średniej spowodowałaby zatem dwukrotną karę.

Bardziej powszechnym podejściem jest rozważenie squared proportionalzwiązku między odchyleniami od średniej a odpowiadającą jej karą. Zapewni to, że im dalej będziesz od średniej, tym proporcjonalnie więcej zostaniesz ukarany. Dzięki tej funkcji kary wartości odstające (z dala od średniej) są uważane za proporcjonalnie bardziej pouczające niż obserwacje w pobliżu średniej.

Aby uzyskać wizualizację tego, możesz po prostu wykreślić funkcje karne:

Porównanie funkcji karnych MAD i MSE

Szczególnie teraz, gdy rozważa się oszacowanie regresji (np. OLS), różne funkcje karne przyniosą różne wyniki. Korzystając z linearly proportionalfunkcji kary regresja przypisze mniejszą wagę do wartości odstających niż podczas korzystania z squared proportionalfunkcji kary. Mediana Absolute Deviation (MAD) jest zatem znana jako bardziej solidny estymator. Ogólnie rzecz biorąc, dlatego jest tak, że solidny estymator dobrze pasuje do większości punktów danych, ale „ignoruje” wartości odstające. Dla porównania, dopasowanie co najmniej kwadratów jest bardziej przyciągane w kierunku wartości odstających. Oto wizualizacja do porównania:

Porównanie OLS z niezawodnym estymatorem

Teraz, mimo że OLS jest w zasadzie standardem, z pewnością wykorzystywane są również różne funkcje karne. Jako przykład możesz przyjrzeć się funkcji solidfitfit Matlaba, która pozwala wybrać inną funkcję kary (zwaną również „wagą”) dla regresji. Funkcje karne obejmują andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar i welsch. Ich odpowiednie wyrażenia można również znaleźć na stronie internetowej.

Mam nadzieję, że to pomoże ci uzyskać nieco więcej intuicji w zakresie funkcji karnych :)

Aktualizacja

Jeśli masz Matlaba, mogę polecić grę z robustdemo Matlaba , który został zbudowany specjalnie do porównania zwykłych najmniejszych kwadratów z solidną regresją:

robustdemo

Demo pozwala przeciągać poszczególne punkty i natychmiast zobaczyć wpływ zarówno na zwykłe najmniejsze kwadraty, jak i solidną regresję (co jest idealne do celów dydaktycznych!).

Jean-Paul
źródło
3

Jak wyjaśniła inna odpowiedź, minimalizowanie błędu kwadratu nie jest tym samym, co minimalizowanie błędu bezwzględnego.

Powód minimalizacji błędu kwadratu jest preferowany, ponieważ lepiej zapobiega dużym błędom.

Powiedz, że dział wynagrodzeń twojego empolyera przypadkowo płaci każdemu z dziesięciu pracowników o 50 $ mniej niż jest to wymagane. Jest to błąd bezwzględny w wysokości 500 USD. Jest to również błąd bezwzględny w wysokości 500 USD, jeśli dział płaci tylko jednemu pracownikowi o 500 USD mniej. Ale to błąd kwadratu, to 25000 w porównaniu z 250000.

Nie zawsze lepiej jest użyć błędu do kwadratu. Jeśli masz zestaw danych z ekstremalną wartością odstającą z powodu błędu akwizycji danych, minimalizacja błędu kwadratu znacznie bardziej pociągnie dopasowanie do skrajnej wartości odstającej niż minimalizacja błędu bezwzględnego. Biorąc to pod uwagę, lepiej jest użyć błędu do kwadratu.

Atsby
źródło
4
Powód minimalizacji błędu kwadratu jest preferowany, ponieważ lepiej zapobiega dużym błędom. - to dlaczego nie pokrojony w kostkę?
Daniel Earwicker 18.04.15
@DanielEarwicker Cubed odejmuje błędy w złym kierunku. Musiałby to być absolutny błąd w kostkach lub trzymanie się nawet parzystych mocy. Nie ma naprawdę „dobrego” powodu, dla którego kwadrat byłby używany zamiast wyższych mocy (lub, w rzeczywistości, funkcji karnych innych niż wielomianowe). Jest po prostu łatwy do obliczenia, łatwy do zminimalizowania i spełnia swoje zadanie.
Atsby
1
Oczywiście, powinienem był powiedzieć jakąkolwiek wyższą, równą moc! :)
Daniel Earwicker,
W tej chwili nie ma żadnych pozytywnych opinii, ale czy to nie jest to samo, co odpowiedź, która (obecnie) ma 15 głosów (tzn. Wartości odstające mają większy wpływ)? Czy to nie dostaje głosów, ponieważ jest złe, czy dlatego, że brakuje niektórych kluczowych informacji? A może dlatego, że nie ma ładnych wykresów? ;-)
Darren Cook
@DarrenCook Podejrzewam, że „nowoczesne” podejście do statystyk woli MAD niż OLS, i sugerowanie, że błąd kwadratu jest „zwykle”, przyniosło mi trochę negatywnych opinii.
Atsby
2

Teoretycznie możesz użyć dowolnej funkcji utraty. Absolutne i kwadratowe funkcje strat po prostu są najpopularniejszymi i najbardziej intuicyjnymi funkcjami strat. Zgodnie z tym wpisem na Wikipedii :

Typowy przykład obejmuje oszacowanie „lokalizacji”. Przy typowych założeniach statystycznych średnia lub średnia to statystyka do oszacowania lokalizacji, która minimalizuje oczekiwaną stratę doświadczaną w ramach funkcji straty błędu kwadratu, podczas gdy mediana jest estymatorem, który minimalizuje oczekiwaną stratę doświadczaną przy funkcji straty różnicy bezwzględnej. Wciąż inne estymatory byłyby optymalne w innych, mniej powszechnych okolicznościach.

Jak wyjaśniono również we wpisie na Wikipedii, wybór funkcji utraty zależy od tego, jak cenisz odchylenia od docelowego obiektu. Jeśli wszystkie odchylenia są dla Ciebie jednakowo złe, bez względu na ich znak, możesz użyć funkcji straty bezwzględnej. Jeśli odchylenia stają się dla ciebie gorsze, im dalej jesteś od optymalnego i nie przejmujesz się, czy odchylenie jest dodatnie czy ujemne, to funkcja straty kwadratowej jest najłatwiejszym wyborem. Ale jeśli żadna z powyższych definicji strat nie pasuje do twojego problemu, ponieważ np. Małe odchylenia są dla Ciebie gorsze niż duże odchylenia, możesz wybrać inną funkcję straty i spróbować rozwiązać problem minimalizacji. Jednak właściwości statystyczne rozwiązania mogą być trudne do oszacowania.

Kristjan
źródło
Mały szczegół: „Jeśli wszystkie odchylenia są dla Ciebie równie złe, bez względu na ich znak ...”: Funkcja MAD karze błędy liniowo-proporcjonalnie. Dlatego błędy nie są „równie złe”, ale „proporcjonalnie złe”, ponieważ dwukrotny błąd otrzymuje podwójną karę.
Jean-Paul,
@ Jean-Paul: Masz rację. Miałem to na myśli w ten sposób. Chciałem powiedzieć „równie źle”, że gradient MAD jest stały, podczas gdy gradient dla MSE rośnie liniowo wraz z błędem. Dlatego jeśli różnica między dwoma błędami jest stała bez względu na to, jak daleko od optymalnego jesteś, to samo nie dotyczy MSE. Mam nadzieję, że dzięki temu bardziej zrozumiałe będzie to, co chcę powiedzieć.
kristjan
-1

Krótkie odpowiedzi

  1. nie
  2. średnia ma bardziej interesujące właściwości statystyczne niż mediana
ℕʘʘḆḽḘ
źródło
10
Byłoby wspaniale, gdyby można było zakwalifikować „bardziej interesujące właściwości statystyczne”.
Momo