Tytuł mówi wszystko. Rozumiem, że najmniejsze kwadraty i maksymalne prawdopodobieństwo dadzą taki sam wynik dla współczynników regresji, jeśli błędy modelu są zwykle rozkładane. Ale co się stanie, jeśli błędy nie są zwykle dystrybuowane? Dlaczego te dwie metody nie są już równoważne?
10
Odpowiedzi:
Krótka odpowiedź
Gęstość prawdopodobieństwa wieloczynnikowej zmiennej rozkładowej Gaussa , ze średnią jest związana z kwadratem euklidesa odległość między średnią a zmienną ( ), czyli innymi słowy suma kwadratów.x=(x1,x2,...,xn) μ=(μ1,μ2,...,μn) |μ−x|22
Długa odpowiedź
Jeśli pomnożysz wiele rozkładów Gaussa dla swoich błędów, przy założeniu równych odchyleń, otrzymasz sumę kwadratów.n
lub w wygodnej formie logarytmicznej:
Zatem optymalizacja celu zminimalizowania sumy kwadratów jest równa maksymalizacji prawdopodobieństwa (log) (tj. Iloczynu wielu rozkładów Gaussa lub wielowymiarowego rozkładu Gaussa).μ
Jest to zagnieżdżony kwadrat różnicy wewnątrz struktury wykładniczej, , którego inne rozkłady nie mają.(μ−x) exp[(xi−μ)2]
Porównaj na przykład z przypadkiem dla rozkładów Poissona
która ma maksimum, gdy zminimalizowane są:
która jest inną bestią.
Ponadto (historia)
Historia rozkładu normalnego (ignorowanie przejścia deMoivre do tego rozkładu jako przybliżenia rozkładu dwumianowego) jest w rzeczywistości odkryciem rozkładu, które sprawia, że MLE odpowiada metodzie najmniejszych kwadratów (a nie metodzie najmniejszych kwadratów, która jest metodą które mogą wyrażać MLE rozkładu normalnego, najpierw pojawiła się metoda najmniejszych kwadratów, a następnie rozkład Gaussa)
Zauważ, że Gauss, łącząc „metodę największego prawdopodobieństwa” z „metodą najmniejszych kwadratów”, wymyślił „rozkład Gaussa”, , jako jedyny rozkład błędów, który prowadzi nas do wykonaj to połączenie między dwiema metodami.e−x2
Z przekładu Charlesa Henry'ego Davisa (Teoria ruchu ciał niebieskich poruszających się wokół Słońca w odcinkach stożkowych. Tłumaczenie „Theoria motus” Gaussa z dodatkiem) ...
Gauss definiuje:
I kontynuuje ( w sekcji 177 s. 258 ):
kończąc (po normalizacji i realizacji ) wk<0
Napisane przez StackExchangeStrike
źródło
Ponieważ MLE wywodzi się z założenia resztkowej normalnie rozłożonej.
Zauważ, że
Ma żadnego znaczenia probabilistyczny : wystarczy znaleźć , które minimalizują funkcję strat kwadratu. Wszystko jest deterministyczne i nie ma tam żadnych losowych składników.β
Zakładamy, że tam, gdzie pojawia się pojęcie prawdopodobieństwa i prawdopodobieństwa
Tam, gdzie rozważamy jako zmienną losową, a jest zwykle rozłożony.ϵy ϵ
źródło
Najmniejsze kwadraty i maksymalne dopasowanie (gaussowskie) prawdopodobieństwa są zawsze równoważne. Oznacza to, że są one minimalizowane przez ten sam zestaw współczynników.
Zmiana założenia dotyczącego błędów zmienia funkcję prawdopodobieństwa (maksymalizacja prawdopodobieństwa modelu jest równoważna maksymalizacji prawdopodobieństwa terminu błędu), a zatem funkcja nie będzie już minimalizowana przez ten sam zestaw współczynników.
Więc w praktyce oba są takie same, ale teoretycznie, kiedy zmaksymalizujesz inne prawdopodobieństwo, dojdziesz do innej odpowiedzi niż Najmniejsze kwadraty
źródło
Konkretny przykład: załóżmy, że bierzemy prostą funkcję błędu p (1) =. 9, p (-9) = .10. Jeśli weźmiemy dwa punkty, LS po prostu przejdzie przez nie linię. Z drugiej strony ML zakłada, że oba punkty są o jedną jednostkę za wysoko, a zatem poprowadzi linię przez punkty przesunięte w dół na jednostkę.
źródło