Dlaczego zwykle przy wyborze modelu minimalizujemy sumę błędów kwadratowych (SSE)?

23

Pytanie jest bardzo proste: dlaczego, kiedy próbujemy dopasować model do naszych danych, liniowy lub nieliniowy, zwykle próbujemy zminimalizować sumę kwadratów błędów, aby uzyskać nasz estymator parametru modelu? Dlaczego nie wybrać innej funkcji celu do zminimalizowania? Rozumiem, że z przyczyn technicznych funkcja kwadratowa jest ładniejsza niż niektóre inne funkcje, np. Suma absolutnego odchylenia. Ale wciąż nie jest to zbyt przekonująca odpowiedź. Poza tym technicznym powodem, dlaczego w szczególności ludzie popierają ten „euklidesowy typ” funkcji odległości? Czy ma to jakieś znaczenie lub interpretację?

Logika mojego myślenia jest następująca:

Gdy masz zestaw danych, najpierw konfigurujesz model, przyjmując zestaw założeń funkcjonalnych lub dystrybucyjnych (np. Warunek chwilowy, ale nie cały rozkład). W twoim modelu są pewne parametry (zakładając, że jest to model parametryczny), wtedy musisz znaleźć sposób, aby konsekwentnie oszacować te parametry i, mam nadzieję, twój estymator będzie miał niską wariancję i kilka innych dobrych właściwości. Bez względu na to, czy minimalizujesz SSE, LAD, czy jakąś inną funkcję celu, uważam, że są to tylko różne metody uzyskania spójnego estymatora. Zgodnie z tą logiką, myślałem, że ludzie używają najmniejszych kwadratów musi być 1) daje spójny estymator modelu 2) coś innego, czego nie znam.

W ekonometrii wiemy, że w modelu regresji liniowej, jeśli założysz, że warunki błędu mają 0 średnie uwarunkowanie na predyktory i homoscedastyczność, a błędy nie są ze sobą skorelowane, to zminimalizowanie sumy błędu kwadratowego da ci ZGODNY estymator twojego modelu parametry i zgodnie z twierdzeniem Gaussa-Markowa estymator ten jest NIEBIESKI. Sugeruje to, że jeśli zdecydujesz się zminimalizować jakąś inną funkcję celu, która nie jest SSE, nie ma gwarancji, że uzyskasz spójne oszacowanie parametru modelu. Czy moje rozumowanie jest prawidłowe? Jeśli jest to poprawne, to minimalizowanie SSE zamiast jakiejś innej funkcji celu może być uzasadnione przez spójność, która jest akceptowalna, w rzeczywistości lepsza niż twierdzenie, że funkcja kwadratowa jest ładniejsza.

W praktyce widziałem wiele przypadków, w których ludzie bezpośrednio minimalizują sumę błędów kwadratowych bez uprzedniego jasnego określenia pełnego modelu, np. Założenia dystrybucyjne (założenia chwilowe) dotyczące terminu błędu. Wydaje mi się wtedy, że użytkownik tej metody chce tylko zobaczyć, jak blisko dane pasują do „modelu” (używam cudzysłowu, ponieważ założenia modelu są prawdopodobnie niepełne) pod względem funkcji odległości kwadratowej.

Powiązane pytanie (również związane z tą witryną) brzmi: dlaczego, kiedy próbujemy porównać różne modele za pomocą weryfikacji krzyżowej, czy ponownie używamy SSE jako kryterium oceny? tj. wybrać model, który ma najmniej SSE? Dlaczego nie inne kryterium?

KevinKim
źródło
Powiązane: stats.stackexchange.com/questions/147001
mówi Przywróć Monikę

Odpowiedzi:

14

Chociaż twoje pytanie jest podobne do wielu innych pytań na stronie, aspekty tego pytania (takie jak nacisk na spójność) sprawiają, że uważam, że nie są wystarczająco bliskie bycia duplikatami.

Dlaczego nie wybrać innej funkcji celu do zminimalizowania?

Dlaczego nie? Jeśli twój cel różni się od najmniejszych kwadratów, powinieneś zamiast tego zająć się swoim celem!

Niemniej jednak najmniejsze kwadraty mają wiele fajnych właściwości (między innymi intymne połączenie ze środkami szacunkowymi , których pragnie wielu ludzi, oraz prostota, która sprawia, że ​​jest to oczywisty pierwszy wybór podczas nauczania lub prób wdrażania nowych pomysłów).

Co więcej, w wielu przypadkach ludzie nie mają wyraźnej funkcji celu, więc zaletą jest wybór tego, co jest łatwo dostępne i szeroko rozumiane.

To powiedziawszy, najmniejsze kwadraty mają również pewne mniej przyjemne właściwości (na przykład wrażliwość na wartości odstające) - więc czasami ludzie wolą bardziej solidne kryterium.

zminimalizowanie sumy błędu kwadratu da ci ZGODNY estymator parametrów twojego modelu

Najmniejsze kwadraty nie są wymogiem spójności. Spójność nie jest bardzo wysoką przeszkodą - wiele estymatorów będzie spójnych. Prawie wszystkie estymatory używane w praktyce są spójne.

a według twierdzenia Gaussa-Markowa estymator ten jest NIEBIESKI.

Ale w sytuacjach, w których wszystkie estymatory liniowe są złe (powiedzmy w przypadku ekstremalnych ciężkich ogonów), najlepsza nie ma dużej przewagi.

jeśli zdecydujesz się zminimalizować jakąś inną funkcję celu, która nie jest SSE, nie ma gwarancji, że otrzymasz spójny estymator parametru modelu. Czy moje rozumowanie jest prawidłowe?

nie jest trudno znaleźć spójne estymatory, więc nie, to nie jest szczególnie dobre uzasadnienie najmniejszych kwadratów

dlaczego, kiedy próbujemy porównać różne modele za pomocą walidacji krzyżowej, ponownie używamy SSE jako kryterium oceny? [...] Dlaczego nie inne kryterium?

Jeśli twój cel lepiej odzwierciedla coś innego, dlaczego nie?

Nie brakuje osób korzystających z innych funkcji celu niż najmniejszych kwadratów. Pojawia się w estymacji M, estymatorach najmniej przyciętych, w regresji kwantowej, a kiedy ludzie używają funkcji utraty LINEX, żeby wymienić tylko kilka.

myślałem, że kiedy masz zestaw danych, najpierw konfigurujesz swój model, tj. robisz zestaw założeń funkcjonalnych lub dystrybucyjnych. W twoim modelu są pewne parametry (załóżmy, że jest to model parametryczny),

Przypuszczalnie parametry założeń funkcjonalnych są tym, co próbujesz oszacować - w takim przypadku założenia funkcjonalne są tym, co robisz najmniej kwadratów (lub cokolwiek innego) wokół ; nie określają kryterium, są tym, co kryterium szacuje.

Z drugiej strony, jeśli masz założenie dystrybucyjne, to masz wiele informacji na temat bardziej odpowiedniej funkcji celu - przypuszczalnie na przykład będziesz chciał uzyskać wydajne oszacowania swoich parametrów - które w dużych próbkach będą mają tendencję do poprowadzenia Cię w kierunku MLE (choć być może w niektórych przypadkach są osadzone w solidnych ramach).

musisz znaleźć sposób, aby konsekwentnie oszacować te parametry. Niezależnie od tego, czy zminimalizujesz SSE, LAD czy jakąś inną funkcję celu,

LAD jest estymatorem kwantylu. Jest to spójny estymator parametru, który powinien oszacować w warunkach, w których należy się spodziewać, w taki sam sposób, jak najmniej kwadratów. (Jeśli spojrzysz na to, na co wykazujesz spójność przy najmniejszych kwadratach, wyniki są podobne dla wielu innych powszechnych estymatorów. Ludzie rzadko używają niespójnych estymatorów, więc jeśli widzisz, że estymator jest szeroko dyskutowany, chyba że mówi się o jego niespójności, to prawie z pewnością spójne. *)

* To powiedziawszy, spójność niekoniecznie jest niezbędną właściwością. W końcu dla mojej próbki mam określoną wielkość próbki, a nie sekwencję wielkości próbki zmierzającą do nieskończoności. Istotne są właściwości w które mam, a nie jakieś nieskończenie większe , których nie mam i nigdy nie zobaczę . Ale gdy zachodzi niespójność, wymagana jest znacznie większa ostrożność - możemy mieć dobry estymator przy = 20, ale może być okropny przy = 2000; w pewnym sensie potrzeba więcej wysiłku, jeśli chcemy zastosować spójne estymatory.nnnn

Jeśli użyjesz LAD do oszacowania średniej wykładniczej, nie będzie to spójne (choć trywialne skalowanie jego oszacowania byłoby) - ale tym samym, jeśli użyjesz najmniejszych kwadratów do oszacowania mediany wykładniczej , nie będzie to spójne (i ponownie, trywialne przeskalowanie to naprawia).

Glen_b - Przywróć Monikę
źródło
Chyba nie wyraziłem jasno mojej troski. Myślałem, że kiedy masz zestaw danych, najpierw konfigurujesz swój model, tj. Robisz zestaw założeń funkcjonalnych lub dystrybucyjnych. W twoim modelu są pewne parametry (zakładając, że jest to model parametryczny), to musisz znaleźć sposób, aby konsekwentnie oszacować te parametry. Niezależnie od tego, czy zminimalizujesz SSE, LAD, czy jakąś inną funkcję celu, myślę, że są to tylko różne metody uzyskiwania estymatora. Zgodnie z tą logiką myślałem, że ludzie używają najmniejszych kwadratów musi być 1) daje spójny estymator modelu 2) coś innego
KevinKim
Przypuszczalnie parametry założeń funkcjonalnych są tym, co próbujesz oszacować - w takim przypadku założenia funkcjonalne są tym, co robisz najmniej kwadratów (lub cokolwiek innego) wokół; nie określają kryterium. Z drugiej strony, jeśli masz założenie dystrybucyjne, to masz wiele informacji na temat bardziej odpowiedniej funkcji celu - przypuszczalnie na przykład będziesz chciał uzyskać wydajne oszacowania swoich parametrów - które w dużych próbkach będą mają tendencję do poprowadzenia Cię w kierunku MLE (choć być może w niektórych przypadkach są osadzone w solidnych ramach).
Glen_b
Ta odpowiedź pasuje do mojego sposobu myślenia. Ale wciąż mam pytanie, co rozumiesz przez „nie określają kryterium”? Czy to oznacza, że ​​np. W ekonometrycznej 101 w regresji liniowej, przy założeniu funkcjonalnym (bez dystrybucji), aby uzyskać spójny estymator, musisz użyć ols, nie możesz użyć żadnej arbitralnej funkcji celu do zminimalizowania, ponieważ nie gwarancja uzyskania spójnego estymatora?
KevinKim
Na „nie określaj” - pozwól mi rozwinąć moją odpowiedź. Spójność: w odpowiedzi podałem odwrotnie. Powiem to jeszcze raz: najmniejsze kwadraty nie są wymogiem spójności. Obejmuje to sytuację, o której właśnie wspomniałeś; istnieje nieskończona liczba alternatywnych estymatorów, które byłyby spójne. Prawie wszystkie estymatory używane w praktyce są spójne. Zmienię swoją odpowiedź, aby była bardziej jednoznaczna.
Glen_b
dla twojej zaktualizowanej odpowiedzi, ostatni akapit, więc w przypadku niektórych modeli NIE MOŻNA produkować spójnych parametrów dla parametrów twojego modelu, chociaż i tak możesz zastosować tę metodę, a kompter da ci pewne liczby, prawda? Czy mogę więc powiedzieć, że dla modelu, który ludzie budują, aby uzyskać estymatory parametrów w modelu, ludzie NIE mogą arbitralnie wybrać funkcji celu optymalizacji JUST na podstawie jego dobrych technicznych właściwości?
KevinKim
5

Zadałeś pytanie statystyczne i mam nadzieję, że odpowiedź mojego inżyniera systemu sterowania jest dźgnięciem z dość innej strony, by być oświecającym.

Oto „kanoniczny” formularz przepływu informacji dla inżynierii systemów sterowania: wprowadź opis zdjęcia tutaj

„R” oznacza wartość odniesienia. Jest to sumowane z transformacją „F” wyjścia „y”, aby wygenerować błąd „e”. Ten błąd stanowi wejście dla sterownika, przekształcone przez funkcję przenoszenia sterowania „C” na wejście sterowania dla instalacji „P”. Ma on być na tyle ogólny, aby mógł być stosowany w dowolnych zakładach. „Roślina” może być silnikiem samochodowym do tempomatu lub kątem wejściowym wahadła odwrotnego.

Powiedzmy, że masz roślinę o znanej funkcji przenoszenia z fenomenologią odpowiednią do poniższej dyskusji, stan obecny i pożądany stan końcowy. ( tabela 2.1 pp68 ) Istnieje nieskończona liczba unikalnych ścieżek, które system, z różnymi danymi wejściowymi, może przechodzić, aby przejść ze stanu początkowego do końcowego. Podręcznik „optymalnego podejścia” inżyniera sterowania obejmuje optymalny czas ( najkrótszy czas / huk ), optymalny dystans (najkrótsza ścieżka), optymalny siła (najniższa maksymalna wielkość wejściowa) i optymalny energetycznie (minimalny całkowity wkład energii).

Tak jak istnieje nieskończona liczba ścieżek, istnieje nieskończona liczba „optymałów” - z których każda wybiera jedną z tych ścieżek. Jeśli wybierzesz jedną ścieżkę i powiesz, że jest najlepsza, domyślnie wybierzesz „miarę dobroci” lub „miarę optymalności”.

Moim osobistym zdaniem myślę, że ludzie tacy jak norma L-2 (czyli optymalna energetycznie, czyli błąd najmniejszego kwadratu), ponieważ jest prosty, łatwy do wyjaśnienia, łatwy do wykonania, ma właściwość wykonywania większej ilości pracy przy większych błędach niż mniejsze, i odchodzi z zerowym nastawieniem. Rozważ normy h-nieskończoności, w których wariancja jest zminimalizowana, a odchylenie jest ograniczone, ale nie zerowe. Mogą być dość przydatne, ale są bardziej złożone do opisania i bardziej złożone do kodu.

Myślę, że norma L2, czyli optymalna ścieżka minimalizująca energię, czyli dopasowanie błędu najmniejszych kwadratów, jest łatwa iw leniwym sensie pasuje do heurystyki, że „większe błędy są bardziej złe, a mniejsze błędy mniej złe”. Istnieje dosłownie nieskończona liczba algorytmicznych sposobów na sformułowanie tego, ale błąd kwadratowy jest jednym z najwygodniejszych. Wymaga tylko algebry, aby więcej osób mogło to zrozumieć. Działa w (popularnej) przestrzeni wielomianowej. Optymalne pod względem energetycznym jest zgodne z większością fizyki, która składa się na nasz postrzegany świat, więc „czuje się znajomo”. Obliczenie jest dość szybkie i niezbyt straszne w pamięci.

Jeśli mam więcej czasu, chciałbym umieścić zdjęcia, kody lub odniesienia bibliograficzne.

EngrStudent - Przywróć Monikę
źródło
1

S.S.miS.S.miR2)S.S.T.

R2)=1-S.S.miS.S.T.

R2)R2)RM.S.mi

R2)R2)S.S.miS.S.miP.RmiS.S., które odnoszą się do twojego pytania na końcu wpisu.

S.S.mi

Aleksandr Blekh
źródło
2
R2)R2)
R2)R2)
R2
R2)
0

Możesz także rozważyć zminimalizowanie błędu maksymalnego zamiast dopasowania najmniejszych kwadratów. Istnieje obszerna literatura na ten temat. Aby wyszukać słowo, spróbuj „Tchebechev” również przeliterowane wielomiany „Chebyshev”.

David F. Mayer
źródło
1
Max jest normą L-nieskończoności. Jeśli spojrzysz na Nutonian / Formulize / Eureqa, mają ładne zoo funkcjonałów kosztów (formularze błędów), w tym międzykwartylowy błąd bezwzględny, błąd utraty zawiasu, ROC-AUC i podpisana różnica. formulize.nutonian.com/documentation/eureqa/general-reference/...
EngrStudent - dozbrojenie Monica
0

Wygląda na to, że ludzie używają kwadratów, ponieważ pozwalają być w sferze Algebry Liniowej i nie dotykać innych, bardziej skomplikowanych rzeczy, takich jak optymalizacja wypukła, która jest bardziej wydajna, ale prowadzi to do użycia solverów bez ładnych rozwiązań w formie zamkniętej.

Pomysł z tej dziedziny matematyki, która ma optymalizację wypukłą, nie rozprzestrzenił się zbyt wiele.

„... Dlaczego dbamy o kwadrat przedmiotów. Szczerze mówiąc, ponieważ możemy to przeanalizować ... Jeśli powiesz, że odpowiada Energii i kupują ją, idź szybko…” - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Również tutaj Stephen P. Boyd opisuje w 2008 roku, że ludzie używają młota i adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916

bruziuz
źródło
0

Na marginesie:

p(t|x,w,β)=N.(t|y(x,w),β-1)
{x,t}w
p(t|x,w,β)=n=1N.N.(tn|y(xn,w),β-1).
-β2)n=1N.{y(xn,w)-tn}2)+N.2)lnβ-N.2)ln(2)π)
wβ
-12)n=1N.{y(xn,w)-tn}2).
timm
źródło