Dlaczego staramy się minimalizować x^2
zamiast minimalizować |x|^1.95
lub |x|^2.05
. Czy istnieją powody, dla których liczba powinna wynosić dokładnie dwa, czy jest to po prostu konwencja, która ma tę zaletę, że upraszcza matematykę?
źródło
Dlaczego staramy się minimalizować x^2
zamiast minimalizować |x|^1.95
lub |x|^2.05
. Czy istnieją powody, dla których liczba powinna wynosić dokładnie dwa, czy jest to po prostu konwencja, która ma tę zaletę, że upraszcza matematykę?
To pytanie jest dość stare, ale tak naprawdę mam odpowiedź, która nie pojawia się tutaj, i która daje przekonujący powód, dla którego (przy pewnych rozsądnych założeniach) kwadratowy błąd jest poprawny, podczas gdy każda inna moc jest nieprawidłowa.
Powiedzmy, że mamy jakieś dane i chcemy znajdź funkcję liniową (lub cokolwiek) która najlepiej przewiduje dane, w tym sensie, że gęstość prawdopodobieństwa dla obserwacji tych danych powinna być maksymalna w odniesieniu do (jest to nazywane oszacowaniem maksymalnego prawdopodobieństwa ). Jeśli założymy, że dane są podane przez plus normalnie rozłożony termin błędu ze standardowym odchyleniem , to Jest to równoważne z f p f ( D ) f f σ p f ( D ) = n ∏ i = 1 11
Nie ma powodu, dla którego nie mógłbyś próbować minimalizować norm innych niż x ^ 2, na przykład napisano całe książki o regresji kwantowej, co w przybliżeniu minimalizuje | x | jeśli pracujesz z medianą. Jest to po prostu trudniejsze i, w zależności od modelu błędu, może nie dać dobrych estymatorów (w zależności od tego, czy w kontekście oznacza to estymatory niskiej wariancji, obiektywne lub niskie estymatory MSE).
Jeśli chodzi o to, dlaczego wolimy momenty całkowite od momentów wartości rzeczywistych, główny powód jest prawdopodobny, że podczas gdy całkowite potęgi liczb rzeczywistych zawsze dają liczby rzeczywiste, niecałkowite potęgi ujemnych liczb rzeczywistych tworzą liczby zespolone, co wymaga użycia wartość bezwzględna. Innymi słowy, podczas gdy trzeci moment zmiennej losowej o wartości rzeczywistej jest rzeczywisty, moment 3,2 niekoniecznie jest prawdziwy, a zatem powoduje problemy z interpretacją.
Inne niż to...
źródło
Staramy się minimalizować wariancję pozostawioną w deskryptorach. Dlaczego wariancja? Przeczytaj to pytanie ; wiąże się to również z (przeważnie cichym) założeniem, że błędy są zwykle rozkładane.
Rozszerzenie:
Dwa dodatkowe argumenty:
W przypadku wariancji mamy to ładne „prawo”, że suma wariancji jest równa wariancji sumy dla próbek nieskorelowanych. Jeśli założymy, że błąd nie jest skorelowany ze sprawą, minimalizacja resztek kwadratów będzie działać prosto do maksymalizacji wyjaśnionej wariancji, co może być niezbyt dobrą, ale wciąż popularną miarą jakości.
Jeśli założymy normalność błędu, estymator błędu najmniejszych kwadratów jest maksymalnym prawdopodobieństwem.
źródło
W zwykłych najmniejszych kwadratach rozwiązanie (A'A) ^ (- 1) x = A'b minimalizuje kwadratową utratę błędów i jest rozwiązaniem o największym prawdopodobieństwie.
Głównie dlatego, że matematyka była łatwa w tym historycznym przypadku.
Ale generalnie ludzie minimalizują wiele różnych funkcji strat , takich jak wykładnicza, logistyczna, cauchy, laplace, huber itp. Te bardziej egzotyczne funkcje strat generalnie wymagają dużej ilości zasobów obliczeniowych i nie mają rozwiązań w formie zamkniętej (ogólnie), więc dopiero teraz stają się bardziej popularne.
źródło
źródło