Hastie i Tibshirani wspominają w rozdziale 4.3.2 swojej książki, że w regresji liniowej podejście metodą najmniejszych kwadratów jest w rzeczywistości szczególnym przypadkiem maksymalnego prawdopodobieństwa. Jak możemy udowodnić ten wynik?
PS: Nie oszczędzaj żadnych szczegółów matematycznych.
regression
maximum-likelihood
least-squares
Pradnyesh Joshi
źródło
źródło
Odpowiedzi:
Model regresji liniowej
Zauważ, że nasz błąd modelu (resztkowy) to . Naszym celem jest znalezienie wektoraϵ=Y−Xβ β który minimalizujeL2 norma podniesiona do kwadratu tego błędu.
Najmniejsze kwadraty
Podane dane(x1,y1),...,(xn,yn) gdzie każdy xi jest p wymiarowe, staramy się znaleźć:
Maksymalne prawdopodobieństwo
Korzystając z powyższego modelu, możemy ustawić prawdopodobieństwo danych, biorąc pod uwagę parametryβ tak jak:
gdzief(yi|xi,β) jest pdf rozkładu normalnego ze średnią 0 i wariancją σ2 . Podłączanie:
Teraz ogólnie, gdy mamy do czynienia z prawdopodobieństwami, matematycznie łatwiej jest wziąć dziennik przed kontynuowaniem (produkty stają się sumami, wykładnicze znikają), więc zróbmy to.
Ponieważ chcemy oszacowania maksymalnego prawdopodobieństwa, chcemy znaleźć maksimum powyższego równania w odniesieniu doβ . Pierwszy termin nie ma wpływu na nasze szacunkiβ , abyśmy mogli to zignorować:
Należy zauważyć, że mianownik jest stałą w odniesieniu doβ . Na koniec zauważ, że przed sumą znajduje się znak ujemny. Znalezienie maksimum liczby ujemnej jest jak znalezienie minimum bez liczby ujemnej. Innymi słowy:
Przypomnijmy, że aby to zadziałało, musieliśmy przyjąć pewne założenia modelu (normalność warunków błędu, średnia 0, stała wariancja). To sprawia, że najmniejszych kwadratów odpowiada MLE pod pewnymi warunkami. Zobacz tutaj i tutaj, aby uzyskać więcej dyskusji.
Dla kompletności zwróć uwagę, że rozwiązanie można zapisać jako:
źródło