Pytanie jest bardzo proste: dlaczego, kiedy próbujemy dopasować model do naszych danych, liniowy lub nieliniowy, zwykle próbujemy zminimalizować sumę kwadratów błędów, aby uzyskać nasz estymator parametru modelu? Dlaczego nie wybrać innej funkcji celu do zminimalizowania? Rozumiem, że z przyczyn technicznych funkcja kwadratowa jest ładniejsza niż niektóre inne funkcje, np. Suma absolutnego odchylenia. Ale wciąż nie jest to zbyt przekonująca odpowiedź. Poza tym technicznym powodem, dlaczego w szczególności ludzie popierają ten „euklidesowy typ” funkcji odległości? Czy ma to jakieś znaczenie lub interpretację?
Logika mojego myślenia jest następująca:
Gdy masz zestaw danych, najpierw konfigurujesz model, przyjmując zestaw założeń funkcjonalnych lub dystrybucyjnych (np. Warunek chwilowy, ale nie cały rozkład). W twoim modelu są pewne parametry (zakładając, że jest to model parametryczny), wtedy musisz znaleźć sposób, aby konsekwentnie oszacować te parametry i, mam nadzieję, twój estymator będzie miał niską wariancję i kilka innych dobrych właściwości. Bez względu na to, czy minimalizujesz SSE, LAD, czy jakąś inną funkcję celu, uważam, że są to tylko różne metody uzyskania spójnego estymatora. Zgodnie z tą logiką, myślałem, że ludzie używają najmniejszych kwadratów musi być 1) daje spójny estymator modelu 2) coś innego, czego nie znam.
W ekonometrii wiemy, że w modelu regresji liniowej, jeśli założysz, że warunki błędu mają 0 średnie uwarunkowanie na predyktory i homoscedastyczność, a błędy nie są ze sobą skorelowane, to zminimalizowanie sumy błędu kwadratowego da ci ZGODNY estymator twojego modelu parametry i zgodnie z twierdzeniem Gaussa-Markowa estymator ten jest NIEBIESKI. Sugeruje to, że jeśli zdecydujesz się zminimalizować jakąś inną funkcję celu, która nie jest SSE, nie ma gwarancji, że uzyskasz spójne oszacowanie parametru modelu. Czy moje rozumowanie jest prawidłowe? Jeśli jest to poprawne, to minimalizowanie SSE zamiast jakiejś innej funkcji celu może być uzasadnione przez spójność, która jest akceptowalna, w rzeczywistości lepsza niż twierdzenie, że funkcja kwadratowa jest ładniejsza.
W praktyce widziałem wiele przypadków, w których ludzie bezpośrednio minimalizują sumę błędów kwadratowych bez uprzedniego jasnego określenia pełnego modelu, np. Założenia dystrybucyjne (założenia chwilowe) dotyczące terminu błędu. Wydaje mi się wtedy, że użytkownik tej metody chce tylko zobaczyć, jak blisko dane pasują do „modelu” (używam cudzysłowu, ponieważ założenia modelu są prawdopodobnie niepełne) pod względem funkcji odległości kwadratowej.
Powiązane pytanie (również związane z tą witryną) brzmi: dlaczego, kiedy próbujemy porównać różne modele za pomocą weryfikacji krzyżowej, czy ponownie używamy SSE jako kryterium oceny? tj. wybrać model, który ma najmniej SSE? Dlaczego nie inne kryterium?
źródło
Odpowiedzi:
Chociaż twoje pytanie jest podobne do wielu innych pytań na stronie, aspekty tego pytania (takie jak nacisk na spójność) sprawiają, że uważam, że nie są wystarczająco bliskie bycia duplikatami.
Dlaczego nie? Jeśli twój cel różni się od najmniejszych kwadratów, powinieneś zamiast tego zająć się swoim celem!
Niemniej jednak najmniejsze kwadraty mają wiele fajnych właściwości (między innymi intymne połączenie ze środkami szacunkowymi , których pragnie wielu ludzi, oraz prostota, która sprawia, że jest to oczywisty pierwszy wybór podczas nauczania lub prób wdrażania nowych pomysłów).
Co więcej, w wielu przypadkach ludzie nie mają wyraźnej funkcji celu, więc zaletą jest wybór tego, co jest łatwo dostępne i szeroko rozumiane.
To powiedziawszy, najmniejsze kwadraty mają również pewne mniej przyjemne właściwości (na przykład wrażliwość na wartości odstające) - więc czasami ludzie wolą bardziej solidne kryterium.
Najmniejsze kwadraty nie są wymogiem spójności. Spójność nie jest bardzo wysoką przeszkodą - wiele estymatorów będzie spójnych. Prawie wszystkie estymatory używane w praktyce są spójne.
Ale w sytuacjach, w których wszystkie estymatory liniowe są złe (powiedzmy w przypadku ekstremalnych ciężkich ogonów), najlepsza nie ma dużej przewagi.
nie jest trudno znaleźć spójne estymatory, więc nie, to nie jest szczególnie dobre uzasadnienie najmniejszych kwadratów
Jeśli twój cel lepiej odzwierciedla coś innego, dlaczego nie?
Nie brakuje osób korzystających z innych funkcji celu niż najmniejszych kwadratów. Pojawia się w estymacji M, estymatorach najmniej przyciętych, w regresji kwantowej, a kiedy ludzie używają funkcji utraty LINEX, żeby wymienić tylko kilka.
Przypuszczalnie parametry założeń funkcjonalnych są tym, co próbujesz oszacować - w takim przypadku założenia funkcjonalne są tym, co robisz najmniej kwadratów (lub cokolwiek innego) wokół ; nie określają kryterium, są tym, co kryterium szacuje.
Z drugiej strony, jeśli masz założenie dystrybucyjne, to masz wiele informacji na temat bardziej odpowiedniej funkcji celu - przypuszczalnie na przykład będziesz chciał uzyskać wydajne oszacowania swoich parametrów - które w dużych próbkach będą mają tendencję do poprowadzenia Cię w kierunku MLE (choć być może w niektórych przypadkach są osadzone w solidnych ramach).
LAD jest estymatorem kwantylu. Jest to spójny estymator parametru, który powinien oszacować w warunkach, w których należy się spodziewać, w taki sam sposób, jak najmniej kwadratów. (Jeśli spojrzysz na to, na co wykazujesz spójność przy najmniejszych kwadratach, wyniki są podobne dla wielu innych powszechnych estymatorów. Ludzie rzadko używają niespójnych estymatorów, więc jeśli widzisz, że estymator jest szeroko dyskutowany, chyba że mówi się o jego niespójności, to prawie z pewnością spójne. *)
* To powiedziawszy, spójność niekoniecznie jest niezbędną właściwością. W końcu dla mojej próbki mam określoną wielkość próbki, a nie sekwencję wielkości próbki zmierzającą do nieskończoności. Istotne są właściwości w które mam, a nie jakieś nieskończenie większe , których nie mam i nigdy nie zobaczę . Ale gdy zachodzi niespójność, wymagana jest znacznie większa ostrożność - możemy mieć dobry estymator przy = 20, ale może być okropny przy = 2000; w pewnym sensie potrzeba więcej wysiłku, jeśli chcemy zastosować spójne estymatory.n n n n
Jeśli użyjesz LAD do oszacowania średniej wykładniczej, nie będzie to spójne (choć trywialne skalowanie jego oszacowania byłoby) - ale tym samym, jeśli użyjesz najmniejszych kwadratów do oszacowania mediany wykładniczej , nie będzie to spójne (i ponownie, trywialne przeskalowanie to naprawia).
źródło
Zadałeś pytanie statystyczne i mam nadzieję, że odpowiedź mojego inżyniera systemu sterowania jest dźgnięciem z dość innej strony, by być oświecającym.
Oto „kanoniczny” formularz przepływu informacji dla inżynierii systemów sterowania:
„R” oznacza wartość odniesienia. Jest to sumowane z transformacją „F” wyjścia „y”, aby wygenerować błąd „e”. Ten błąd stanowi wejście dla sterownika, przekształcone przez funkcję przenoszenia sterowania „C” na wejście sterowania dla instalacji „P”. Ma on być na tyle ogólny, aby mógł być stosowany w dowolnych zakładach. „Roślina” może być silnikiem samochodowym do tempomatu lub kątem wejściowym wahadła odwrotnego.
Powiedzmy, że masz roślinę o znanej funkcji przenoszenia z fenomenologią odpowiednią do poniższej dyskusji, stan obecny i pożądany stan końcowy. ( tabela 2.1 pp68 ) Istnieje nieskończona liczba unikalnych ścieżek, które system, z różnymi danymi wejściowymi, może przechodzić, aby przejść ze stanu początkowego do końcowego. Podręcznik „optymalnego podejścia” inżyniera sterowania obejmuje optymalny czas ( najkrótszy czas / huk ), optymalny dystans (najkrótsza ścieżka), optymalny siła (najniższa maksymalna wielkość wejściowa) i optymalny energetycznie (minimalny całkowity wkład energii).
Tak jak istnieje nieskończona liczba ścieżek, istnieje nieskończona liczba „optymałów” - z których każda wybiera jedną z tych ścieżek. Jeśli wybierzesz jedną ścieżkę i powiesz, że jest najlepsza, domyślnie wybierzesz „miarę dobroci” lub „miarę optymalności”.
Moim osobistym zdaniem myślę, że ludzie tacy jak norma L-2 (czyli optymalna energetycznie, czyli błąd najmniejszego kwadratu), ponieważ jest prosty, łatwy do wyjaśnienia, łatwy do wykonania, ma właściwość wykonywania większej ilości pracy przy większych błędach niż mniejsze, i odchodzi z zerowym nastawieniem. Rozważ normy h-nieskończoności, w których wariancja jest zminimalizowana, a odchylenie jest ograniczone, ale nie zerowe. Mogą być dość przydatne, ale są bardziej złożone do opisania i bardziej złożone do kodu.
Myślę, że norma L2, czyli optymalna ścieżka minimalizująca energię, czyli dopasowanie błędu najmniejszych kwadratów, jest łatwa iw leniwym sensie pasuje do heurystyki, że „większe błędy są bardziej złe, a mniejsze błędy mniej złe”. Istnieje dosłownie nieskończona liczba algorytmicznych sposobów na sformułowanie tego, ale błąd kwadratowy jest jednym z najwygodniejszych. Wymaga tylko algebry, aby więcej osób mogło to zrozumieć. Działa w (popularnej) przestrzeni wielomianowej. Optymalne pod względem energetycznym jest zgodne z większością fizyki, która składa się na nasz postrzegany świat, więc „czuje się znajomo”. Obliczenie jest dość szybkie i niezbyt straszne w pamięci.
Jeśli mam więcej czasu, chciałbym umieścić zdjęcia, kody lub odniesienia bibliograficzne.
źródło
źródło
Możesz także rozważyć zminimalizowanie błędu maksymalnego zamiast dopasowania najmniejszych kwadratów. Istnieje obszerna literatura na ten temat. Aby wyszukać słowo, spróbuj „Tchebechev” również przeliterowane wielomiany „Chebyshev”.
źródło
Wygląda na to, że ludzie używają kwadratów, ponieważ pozwalają być w sferze Algebry Liniowej i nie dotykać innych, bardziej skomplikowanych rzeczy, takich jak optymalizacja wypukła, która jest bardziej wydajna, ale prowadzi to do użycia solverów bez ładnych rozwiązań w formie zamkniętej.
Pomysł z tej dziedziny matematyki, która ma optymalizację wypukłą, nie rozprzestrzenił się zbyt wiele.
„... Dlaczego dbamy o kwadrat przedmiotów. Szczerze mówiąc, ponieważ możemy to przeanalizować ... Jeśli powiesz, że odpowiada Energii i kupują ją, idź szybko…” - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.
Również tutaj Stephen P. Boyd opisuje w 2008 roku, że ludzie używają młota i adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916
źródło
Na marginesie:
źródło