Odchylenie od liczb naturalnych w przypadku najmniejszych kwadratów

14

Dlaczego staramy się minimalizować x^2zamiast minimalizować |x|^1.95lub |x|^2.05. Czy istnieją powody, dla których liczba powinna wynosić dokładnie dwa, czy jest to po prostu konwencja, która ma tę zaletę, że upraszcza matematykę?

chrześcijanin
źródło

Odpowiedzi:

5

To pytanie jest dość stare, ale tak naprawdę mam odpowiedź, która nie pojawia się tutaj, i która daje przekonujący powód, dla którego (przy pewnych rozsądnych założeniach) kwadratowy błąd jest poprawny, podczas gdy każda inna moc jest nieprawidłowa.

Powiedzmy, że mamy jakieś dane i chcemy znajdź funkcję liniową (lub cokolwiek) która najlepiej przewiduje dane, w tym sensie, że gęstość prawdopodobieństwa dla obserwacji tych danych powinna być maksymalna w odniesieniu do (jest to nazywane oszacowaniem maksymalnego prawdopodobieństwa ). Jeśli założymy, że dane są podane przez plus normalnie rozłożony termin błędu ze standardowym odchyleniem , to Jest to równoważne z f p f ( D ) f f σ p f ( D ) = n i = 1 1D=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)ffσ1

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
pf(D) n i = 1 (yi-f(xi))2
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
Tak więc maksymalizację osiąga się, minimalizując , czyli suma kwadratów wyrażonych błędów.pf(D)i=1n(yif(xi))2

źródło
To wydaje się okrągłe, dlaczego powinieneś założyć normalnie dystrybuowany termin błędu?
Joe
@Joe Nie powinieneś zawsze, ale jeśli jedyną rzeczą, którą wiesz o warunku błędu, jest to, że ma on średnią 0 i skończoną oczekiwaną wartość bezwzględną, to jest to założenie maksymalnej entropii, więc może zastąpić wszystko, co nieznane funkcja błędu, którą faktycznie masz. Jeśli masz dodatkowe informacje o rozkładzie błędów, to przypuszczam, że możesz je wykorzystać i znaleźć dokładniejszy estymator maksymalnego prawdopodobieństwa.
„jeśli jedyną rzeczą, którą wiesz o błędzie, jest to, że ma on średnią 0 i skończoną oczekiwaną wartość bezwzględną, to jest to założenie maksymalnej entropii” - każde wyprowadzenie maksymalnych rozkładów entropii, które widziałem, wyprowadza rozkład Laplace'a jako rozkład maksymalny dla (znanej) skończonej oczekiwanej wartości bezwzględnej, podczas gdy gaussowski jest maksimum dla (znanej) skończonej oczekiwanej kwadratowej wartości bezwzględnej, patrz jako przykład stats.stackexchange.com/questions/82410/... czy masz cytaty, które się nie zgadzają ?
Joe
Wiesz, ja nie. Zakładam, że masz rację. (Z jakiegoś powodu nie mogę wymyślić, jak edytować mój komentarz)
14

Nie ma powodu, dla którego nie mógłbyś próbować minimalizować norm innych niż x ^ 2, na przykład napisano całe książki o regresji kwantowej, co w przybliżeniu minimalizuje | x | jeśli pracujesz z medianą. Jest to po prostu trudniejsze i, w zależności od modelu błędu, może nie dać dobrych estymatorów (w zależności od tego, czy w kontekście oznacza to estymatory niskiej wariancji, obiektywne lub niskie estymatory MSE).

Jeśli chodzi o to, dlaczego wolimy momenty całkowite od momentów wartości rzeczywistych, główny powód jest prawdopodobny, że podczas gdy całkowite potęgi liczb rzeczywistych zawsze dają liczby rzeczywiste, niecałkowite potęgi ujemnych liczb rzeczywistych tworzą liczby zespolone, co wymaga użycia wartość bezwzględna. Innymi słowy, podczas gdy trzeci moment zmiennej losowej o wartości rzeczywistej jest rzeczywisty, moment 3,2 niekoniecznie jest prawdziwy, a zatem powoduje problemy z interpretacją.

Inne niż to...

  1. Wyrażenia analityczne dla całkowitych momentów zmiennych losowych są zazwyczaj znacznie łatwiejsze do znalezienia niż momenty o wartościach rzeczywistych, czy to przez generowanie funkcji, czy inną metodę. Metody ich minimalizacji są zatem łatwiejsze do napisania.
  2. Wykorzystanie momentów całkowitych prowadzi do wyrażeń, które są bardziej zrozumiałe niż chwile o wartościach rzeczywistych.
  3. Nie mogę wymyślić przekonującego powodu, aby (na przykład) 1.95-ty moment wartości bezwzględnej X zapewniłby lepsze właściwości dopasowania niż (na przykład) 2. moment X, chociaż może to być interesujące do zbadania
  4. Specyficzny dla normy L2 (lub błędu kwadratu), może być zapisywany za pomocą produktów kropkowych, co może prowadzić do znacznej poprawy szybkości obliczeń. Jest to również jedyna przestrzeń Lp, która jest przestrzenią Hilberta, co jest przyjemną cechą.
Bogaty
źródło
8

Staramy się minimalizować wariancję pozostawioną w deskryptorach. Dlaczego wariancja? Przeczytaj to pytanie ; wiąże się to również z (przeważnie cichym) założeniem, że błędy są zwykle rozkładane.

Rozszerzenie:
Dwa dodatkowe argumenty:

  1. W przypadku wariancji mamy to ładne „prawo”, że suma wariancji jest równa wariancji sumy dla próbek nieskorelowanych. Jeśli założymy, że błąd nie jest skorelowany ze sprawą, minimalizacja resztek kwadratów będzie działać prosto do maksymalizacji wyjaśnionej wariancji, co może być niezbyt dobrą, ale wciąż popularną miarą jakości.

  2. Jeśli założymy normalność błędu, estymator błędu najmniejszych kwadratów jest maksymalnym prawdopodobieństwem.

Społeczność
źródło
1
Odpowiedź w tym drugim wątku tak naprawdę nie wyjaśnia, dlaczego 2 jest lepszą wartością niż inne wartości, które są bardzo bliskie 2, ale nie są liczbami naturalnymi.
Christian
Myślę, że tak; wciąż postaram się rozszerzyć odpowiedź.
Tak więc, jeśli błędy nie są normalnie dystrybuowane, ale na przykład według innej dystrybucji stabilnej Lévy, opłaca się użyć wykładnika innego niż 2?
Raskolnikov
Pamiętaj, rozkład normalny jest najbardziej „ostrożny” dla znanej wariancji (ponieważ ma maksymalną entropię pomiędzy wszystkimi gęstościami ze stałą wariancją). Dane pozostawiają najwięcej do powiedzenia. Innymi słowy, w przypadku „dużych” zestawów danych o tej samej wariancji „trzeba” niezwykle ciężko „spróbować” uzyskać rozkład różniący się od normalnego.
prawdopodobieństwo prawdopodobieństwo
8

W zwykłych najmniejszych kwadratach rozwiązanie (A'A) ^ (- 1) x = A'b minimalizuje kwadratową utratę błędów i jest rozwiązaniem o największym prawdopodobieństwie.

Głównie dlatego, że matematyka była łatwa w tym historycznym przypadku.

Ale generalnie ludzie minimalizują wiele różnych funkcji strat , takich jak wykładnicza, logistyczna, cauchy, laplace, huber itp. Te bardziej egzotyczne funkcje strat generalnie wymagają dużej ilości zasobów obliczeniowych i nie mają rozwiązań w formie zamkniętej (ogólnie), więc dopiero teraz stają się bardziej popularne.

Joe
źródło
1
+1 za wprowadzenie koncepcji straty. (Ale czy nie są to „wykładnicze” itd., Rozkłady , a nie funkcje strat?) Historycznie liniowa strata była pierwszym podejściem formalnie opracowanym w 1750 r. I było do niej proste rozwiązanie geometryczne . Wierzę, że Laplace ustalił związek między tym a rozkładem podwójnego wykładniczego w publikacji z 1809 r. (Dla której MLE zminimalizuje błąd bezwzględny, a nie błąd kwadratowy). Zatem kwadratowa strata nie jest jednoznacznie rozróżniana przez kryteria posiadania MLE i bycia łatwym matematycznie.
whuber
Są to zarówno funkcje rozkładów, jak i strat w różnych kontekstach.
Joe
Nacisnąłem klawisz Enter zbyt szybko na poprzedniej odpowiedzi - utrata wykładnicza jest szeroko związana z podwyższaniem (patrz Friedman Hastie i Statystyka statystyczna Tibshirani na temat wzmocnienia), gdzie jest to strata zamiast rozkładu, regresja logistyczna odpowiada utracie logów, laplace jest rozkładem, ale odpowiada absolutnej utracie wartości - więc w większości byłem wyjątkowo niechlujny, dzięki za zwrócenie na to uwagi. Ale chociaż utrata L1 ma rozwiązanie geometryczne, nie jest to forma zamknięta analitycznie, więc nie nazwałbym jej rozwiązaniem łatwym.
Joe
1

1×1=1x

Ian Turner
źródło