Metoda maksymalnego prawdopodobieństwa vs. metoda najmniejszych kwadratów

42

Jaka jest główna różnica między oszacowaniem maksymalnego prawdopodobieństwa (MLE) a oszacowaniem metodą najmniejszych kwadratów (LSE)?

Dlaczego nie możemy użyć MLE do przewidywania wartości w regresji liniowej i odwrotnie?y

Każda pomoc na ten temat będzie bardzo mile widziana.

evros
źródło
8
Możesz użyć MLE w regresji liniowej, jeśli chcesz. Może to mieć sens, jeśli rozkład błędów jest nienormalny, a Twoim celem jest uzyskanie „najbardziej prawdopodobnej” oceny, a nie takiej, która minimalizuje sumę kwadratów.
Richard Hardy
16
Przy normalnym założeniu błędu, jak zwykle zakłada się w regresji liniowej, MLE i LSE są takie same!
TrynnaDoStat
1
Wyszukaj na naszej stronie twierdzenie Gaussa-Markowa .
whuber
dzięki za wszystkie odpowiedzi. To ma sens. Podczas szukania tego tematu w sieci natknąłem się na ten artykuł. Może to też pomaga: radfordneal.wordpress.com/2008/08/09/…
evros
1
Odpowiedź jest również przewidziane w stats.stackexchange.com/questions/12562/... .
whuber

Odpowiedzi:

19

Chciałbym udzielić prostej odpowiedzi.

Jaka jest główna różnica między oszacowaniem maksymalnego prawdopodobieństwa (MLE) a oszacowaniem metodą najmniejszych kwadratów (LSE)?

Jak skomentował @TrynnaDoStat, minimalizacja błędu kwadratu jest równoważna maksymalizacji prawdopodobieństwa w tym przypadku. Jak powiedziano w Wikipedii ,

W modelu liniowym, jeśli błędy należą do rozkładu normalnego, estymatory najmniejszych kwadratów są również estymatorami największego prawdopodobieństwa.

mogą być traktowane tak samo w twoim przypadku,

Pozwól mi to szczegółowo opisać. Ponieważ wiemy, że zmienna odpowiedzi ( y )

Yja=λ1Xja+λ2)+ϵja gdzie ϵN.(0,σ2))
ma model rozkładu błędu normalnego, funkcją prawdopodobieństwa jest L ( Y 1 , , Y n ; λ 1 , λ 2 , σ 2 ) = 1
wprowadź opis zdjęcia tutaj
L.(Y1,,Yn;λ1,λ2),σ2))=1(2)π)n2)σnmixp(-12)σ2)(ja=1n(Yja-λ1Xja-λ2))2)))
Oczywiście maksymalizacja L jest równoważna minimalizacji
ja=1n(Yja-λ1Xja-λ2))2)
To jest metoda najmniejszych kwadratów.

Dlaczego nie możemy użyć MLE do przewidywania wartości y w regresji liniowej i odwrotnie?

y

Lerner Zhang
źródło
3
Możesz zdefiniować „ten przypadek” nieco jaśniej, ponieważ generalnie maksymalne prawdopodobieństwo i najmniejsze kwadraty to nie to samo.
Matthew Gunn
2
@MatthewGunn Tak, użyłem „odpowiednika” innego niż „to samo”.
Lerner Zhang
Byłoby wspaniale, gdybyś dał nam przykład, w którym model liniowy jest zgodny z nietypowym rozkładem błędów, oraz w jaki sposób używasz MLE w takim przypadku do oszacowania najlepszych współczynników. Jeśli nie jest to możliwe, przynajmniej możesz wskazać nam prawidłowe źródło, które pokazuje to za pomocą modeli liniowych, takich jak regresja Poissona
VM_AI
12

L.1L.2)

L.2)L.2)

  • szpiegowanie danych
  • parametry stochastyczne
  • słabe ograniczenia

Profesjonalne aplikacje nie tylko pasują do danych, ale sprawdzają:

  • jeśli parametr jest znaczący
  • jeśli twój zestaw danych zawiera wartości odstające
  • która wartość odstająca może być tolerowana, ponieważ nie ogranicza wydajności
  • który pomiar należy usunąć, ponieważ nie wpływa on na stopień swobód

Istnieje również ogromna liczba specjalistycznych testów statystycznych dla hipotez. Nie dotyczy to wszystkich estymatorów ML lub powinno być przynajmniej potwierdzone.

L.2)

Xβ=L.+r(XT.X)-1L.2)

Zapytaj o szczegóły.

Nali
źródło