Równoważność między najmniejszymi kwadratami a MLE w modelu Gaussa

26

Jestem nowy w uczeniu maszynowym i staram się go uczyć na własną rękę. Niedawno czytałem notatki z wykładów i zadałem podstawowe pytanie.

Slajd 13 mówi, że „Szacunek najmniejszych kwadratów jest taki sam jak Szacunek maksymalnego prawdopodobieństwa w modelu Gaussa”. Wygląda na to, że jest to coś prostego, ale nie widzę tego. Czy ktoś może wyjaśnić, co się tutaj dzieje? Jestem zainteresowany widzeniem matematyki.

Później postaram się również zobaczyć probabilistyczny punkt widzenia regresji Ridge'a i Lassa, więc jeśli będą jakieś sugestie, które mi pomogą, to też będzie bardzo mile widziane.

Andy
źródło
4
Funkcja celu na dole p. 13 jest tylko stałą wielokrotnością ( ) funkcji celu na dole p. 10. MLE minimalizuje to pierwsze, a najmniejsze kwadraty minimalizuje to drugie, QED. n
whuber
@whuber: Dziękuję za odpowiedź. Cóż, chciałem wiedzieć, jak to jest, że MLE robi minimalizację.
Andy
Masz na myśli mechanikę czy koncepcyjnie?
whuber
@whuber: Oba! Gdybym mógł zobaczyć tę matematykę, to też pomoże.
Andy
1
Link jest zepsuty; brak pełnego odniesienia i szerszego kontekstu cytatu utrudnia po prostu usunięcie odniesienia lub znalezienie dla niego alternatywnego źródła. Czy slajd 13 tego linku jest wystarczający? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b -Reinstate Monica

Odpowiedzi:

29

W modelu

Y=Xβ+ϵ

ϵN.(0,σ2))Y|Xn

-n2)log(σ2))-12)σ2)ja=1n(yja-xjaβ)2)

β

ja=1n(yja-xjaβ)2)

czy to wyjaśnia równoważność?

Makro
źródło
To jest dokładnie to, co znajduje się w slajdach, o których mowa w OP
whuber
3
Tak, widzę to, ale tak naprawdę nie zapisują prawdopodobieństwa logarytmicznego Gaussa na stronie 13, co po tym robi, jest oczywiste, że jego argmax jest taki sam jak argmin kryteriów OLS, więc pomyślałem, że to było wartościowe uzupełnienie.
Makro
Dobra uwaga: slajd jest trochę szkicowy ze szczegółami.
whuber
7
βL.2)
1
Stała addytywna ton/2 log(2 *pi)
SmallChess