Kiedy przeprowadzamy regresję liniową aby dopasować kilka punktów danych , klasyczne podejście minimalizuje błąd kwadratu. Od dawna zastanawia mnie pytanie, które zminimalizowanie błędu kwadratu da taki sam wynik, jak zminimalizowanie błędu absolutnego ? Jeśli nie, dlaczego minimalizacja błędu kwadratu jest lepsza? Czy istnieje powód inny niż „funkcja celu jest różniczkowalna”?
Błąd kwadratowy jest również szeroko stosowany do oceny wydajności modelu, ale błąd bezwzględny jest mniej popularny. Dlaczego błąd kwadratowy jest częściej używany niż błąd bezwzględny? Jeśli nie bierze się pochodnych, obliczenie błędu bezwzględnego jest tak proste, jak obliczenie błędu do kwadratu, to dlaczego błąd kwadratowy jest tak powszechny ? Czy jest jakaś wyjątkowa zaleta, która może wyjaśnić jej rozpowszechnienie?
Dziękuję Ci.
źródło
Odpowiedzi:
Minimalizowanie błędów kwadratowych (MSE) zdecydowanie nie jest tym samym, co minimalizowanie bezwzględnych odchyleń (MAD) błędów. MSE zapewnia średnią odpowiedź uwarunkowaną na , podczas gdy MAD zapewnia medianę odpowiedzi uwarunkowaną na .y x y x
Historycznie Laplace początkowo uważał maksymalny zaobserwowany błąd za miarę poprawności modelu. Wkrótce zajął się rozważaniem MAD . Ze względu na jego niezdolność do dokładnego rozwiązania obu sytuacji, wkrótce zastanowił się nad różnicowym MSE. On i Gauss (pozornie równolegle) wyprowadzili normalne równania, zamknięte rozwiązanie tego problemu. Obecnie rozwiązywanie MAD jest stosunkowo łatwe dzięki programowaniu liniowemu. Jak jednak wiadomo, programowanie liniowe nie ma rozwiązania w formie zamkniętej.
Z punktu widzenia optymalizacji oba odpowiadają funkcjom wypukłym. Jednak MSE można różnicować, co pozwala na stosowanie metod opartych na gradiencie, znacznie wydajniejszych niż ich nieodróżnialny odpowiednik. MAD nie jest rozróżnialny przy .x=0
Kolejnym teoretycznym powodem jest to, że w ustawieniu bayesowskim, przy założeniu jednolitych priorytetów parametrów modelu, MSE daje normalne błędy rozproszone, co zostało uznane za dowód poprawności metody. Teoretycy lubią rozkład normalny, ponieważ wierzą, że jest to fakt empiryczny, podczas gdy eksperymentatorom się podoba, ponieważ wierzą, że jest to wynik teoretyczny.
Ostatnim powodem, dla którego MSE mogło mieć tak szeroką akceptację, jest fakt, że jest on oparty na odległości euklidesowej (w rzeczywistości jest to rozwiązanie problemu rzutowania na euklidesową przestrzeń banach), co jest niezwykle intuicyjne, biorąc pod uwagę naszą geometryczną rzeczywistość.
źródło
Jako alternatywne wyjaśnienie rozważ następującą intuicję:
Minimalizując błąd, musimy zdecydować, jak ukarać te błędy. Rzeczywiście, najprostszym podejściem do karania błędów byłoby użycie
linearly proportional
funkcji kary. Przy takiej funkcji każde odchylenie od średniej otrzymuje proporcjonalny błąd odpowiadający. Dwukrotnie większa od średniej spowodowałaby zatem dwukrotną karę.Bardziej powszechnym podejściem jest rozważenie
squared proportional
związku między odchyleniami od średniej a odpowiadającą jej karą. Zapewni to, że im dalej będziesz od średniej, tym proporcjonalnie więcej zostaniesz ukarany. Dzięki tej funkcji kary wartości odstające (z dala od średniej) są uważane za proporcjonalnie bardziej pouczające niż obserwacje w pobliżu średniej.Aby uzyskać wizualizację tego, możesz po prostu wykreślić funkcje karne:
Szczególnie teraz, gdy rozważa się oszacowanie regresji (np. OLS), różne funkcje karne przyniosą różne wyniki. Korzystając z
linearly proportional
funkcji kary regresja przypisze mniejszą wagę do wartości odstających niż podczas korzystania zsquared proportional
funkcji kary. Mediana Absolute Deviation (MAD) jest zatem znana jako bardziej solidny estymator. Ogólnie rzecz biorąc, dlatego jest tak, że solidny estymator dobrze pasuje do większości punktów danych, ale „ignoruje” wartości odstające. Dla porównania, dopasowanie co najmniej kwadratów jest bardziej przyciągane w kierunku wartości odstających. Oto wizualizacja do porównania:Teraz, mimo że OLS jest w zasadzie standardem, z pewnością wykorzystywane są również różne funkcje karne. Jako przykład możesz przyjrzeć się funkcji solidfitfit Matlaba, która pozwala wybrać inną funkcję kary (zwaną również „wagą”) dla regresji. Funkcje karne obejmują andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar i welsch. Ich odpowiednie wyrażenia można również znaleźć na stronie internetowej.
Mam nadzieję, że to pomoże ci uzyskać nieco więcej intuicji w zakresie funkcji karnych :)
Aktualizacja
Jeśli masz Matlaba, mogę polecić grę z robustdemo Matlaba , który został zbudowany specjalnie do porównania zwykłych najmniejszych kwadratów z solidną regresją:
Demo pozwala przeciągać poszczególne punkty i natychmiast zobaczyć wpływ zarówno na zwykłe najmniejsze kwadraty, jak i solidną regresję (co jest idealne do celów dydaktycznych!).
źródło
Jak wyjaśniła inna odpowiedź, minimalizowanie błędu kwadratu nie jest tym samym, co minimalizowanie błędu bezwzględnego.
Powód minimalizacji błędu kwadratu jest preferowany, ponieważ lepiej zapobiega dużym błędom.
Powiedz, że dział wynagrodzeń twojego empolyera przypadkowo płaci każdemu z dziesięciu pracowników o 50 $ mniej niż jest to wymagane. Jest to błąd bezwzględny w wysokości 500 USD. Jest to również błąd bezwzględny w wysokości 500 USD, jeśli dział płaci tylko jednemu pracownikowi o 500 USD mniej. Ale to błąd kwadratu, to 25000 w porównaniu z 250000.
Nie zawsze lepiej jest użyć błędu do kwadratu. Jeśli masz zestaw danych z ekstremalną wartością odstającą z powodu błędu akwizycji danych, minimalizacja błędu kwadratu znacznie bardziej pociągnie dopasowanie do skrajnej wartości odstającej niż minimalizacja błędu bezwzględnego. Biorąc to pod uwagę, lepiej jest użyć błędu do kwadratu.
źródło
Teoretycznie możesz użyć dowolnej funkcji utraty. Absolutne i kwadratowe funkcje strat po prostu są najpopularniejszymi i najbardziej intuicyjnymi funkcjami strat. Zgodnie z tym wpisem na Wikipedii :
Jak wyjaśniono również we wpisie na Wikipedii, wybór funkcji utraty zależy od tego, jak cenisz odchylenia od docelowego obiektu. Jeśli wszystkie odchylenia są dla Ciebie jednakowo złe, bez względu na ich znak, możesz użyć funkcji straty bezwzględnej. Jeśli odchylenia stają się dla ciebie gorsze, im dalej jesteś od optymalnego i nie przejmujesz się, czy odchylenie jest dodatnie czy ujemne, to funkcja straty kwadratowej jest najłatwiejszym wyborem. Ale jeśli żadna z powyższych definicji strat nie pasuje do twojego problemu, ponieważ np. Małe odchylenia są dla Ciebie gorsze niż duże odchylenia, możesz wybrać inną funkcję straty i spróbować rozwiązać problem minimalizacji. Jednak właściwości statystyczne rozwiązania mogą być trudne do oszacowania.
źródło
Krótkie odpowiedzi
źródło