Zależność między MLE a najmniejszymi kwadratami w przypadku regresji liniowej

9

Hastie i Tibshirani wspominają w rozdziale 4.3.2 swojej książki, że w regresji liniowej podejście metodą najmniejszych kwadratów jest w rzeczywistości szczególnym przypadkiem maksymalnego prawdopodobieństwa. Jak możemy udowodnić ten wynik?

PS: Nie oszczędzaj żadnych szczegółów matematycznych.

Pradnyesh Joshi
źródło
2
To nie jest szczególny przypadek: są one identyczne, gdy rozkład błędów jest normalny.
Zhanxiong

Odpowiedzi:

13

Model regresji liniowej

Y=Xβ+ϵ , gdzieϵN(0,Iσ2)

YRn , iXRn×pβRp

Zauważ, że nasz błąd modelu (resztkowy) to . Naszym celem jest znalezienie wektoraϵ=YXββ który minimalizujeL2 norma podniesiona do kwadratu tego błędu.

Najmniejsze kwadraty

Podane dane (x1,y1),...,(xn,yn) gdzie każdy xi jest p wymiarowe, staramy się znaleźć:

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

Maksymalne prawdopodobieństwo

Korzystając z powyższego modelu, możemy ustawić prawdopodobieństwo danych, biorąc pod uwagę parametry β tak jak:

L(Y|X,β)=i=1nf(yi|xi,β)

gdzie f(yi|xi,β) jest pdf rozkładu normalnego ze średnią 0 i wariancją σ2. Podłączanie:

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

Teraz ogólnie, gdy mamy do czynienia z prawdopodobieństwami, matematycznie łatwiej jest wziąć dziennik przed kontynuowaniem (produkty stają się sumami, wykładnicze znikają), więc zróbmy to.

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

Ponieważ chcemy oszacowania maksymalnego prawdopodobieństwa, chcemy znaleźć maksimum powyższego równania w odniesieniu do β. Pierwszy termin nie ma wpływu na nasze szacunkiβ, abyśmy mogli to zignorować:

β^MLE=argmaxβi=1n(yixiβ)22σ2

Należy zauważyć, że mianownik jest stałą w odniesieniu do β. Na koniec zauważ, że przed sumą znajduje się znak ujemny. Znalezienie maksimum liczby ujemnej jest jak znalezienie minimum bez liczby ujemnej. Innymi słowy:

β^MLE=argminβi=1n(yixiβ)2=β^LS

Przypomnijmy, że aby to zadziałało, musieliśmy przyjąć pewne założenia modelu (normalność warunków błędu, średnia 0, stała wariancja). To sprawia, że ​​najmniejszych kwadratów odpowiada MLE pod pewnymi warunkami. Zobacz tutaj i tutaj, aby uzyskać więcej dyskusji.

Dla kompletności zwróć uwagę, że rozwiązanie można zapisać jako:

β=(XTX)1XTy
ilanman
źródło