To pytanie jest inspirowane długą dyskusją w komentarzach tutaj: W jaki sposób regresja liniowa wykorzystuje rozkład normalny?
W zwykłym modelu regresji liniowej, dla uproszczenia, zapisanym tutaj tylko z jednym predyktorem: gdzie są znanymi stałymi, a są zerowymi średnimi niezależnymi błędami. Jeśli dodatkowo przyjmiemy rozkład normalny dla błędów, wówczas zwykłe estymatory najmniejszych kwadratów i estymatory maksymalnego prawdopodobieństwa są identyczne.x i ϵ i β 0 , β 1
Więc moje proste pytanie: czy istnieje jakikolwiek inny rozkład terminów błędu, taki że mle są identyczne ze zwykłym estymatorem najmniejszych squaeres? Jedna implikacja jest łatwa do pokazania, druga nie.
regression
normal-distribution
mathematical-statistics
maximum-likelihood
least-squares
kjetil b halvorsen
źródło
źródło
Odpowiedzi:
W celu oszacowania maksymalnego prawdopodobieństwa obliczamy
ostatnia zależność uwzględniająca strukturę liniowości równania regresji.
Dla porównania estymator OLS spełnia wymagania
Aby uzyskać identyczne wyrażenia algebraiczne dla współczynników nachylenia, musimy mieć gęstość dla składnika błędu, tak aby
Są to równania różniczkowe postaci które mają rozwiązaniay′=±xy
Każda funkcja, która ma to jądro i integruje się z jednością w odpowiedniej domenie, sprawi, że MLE i OLS dla współczynników nachylenia będą identyczne. Mianowicie szukamy
Czy istnieje taki który nie jest normalną gęstością (lub półnormalną lub pochodną funkcji błędu)?g
Na pewno. Ale jeszcze jedną rzeczą, którą należy wziąć pod uwagę, jest następująca: jeśli użyjemy znaku plus w wykładniku i symetrycznej obsłudze na przykład wokół zera, otrzymamy gęstość, która ma unikalne minimum pośrodku i dwie lokalne maksima na granice wsparcia.
źródło
Jeśli zdefiniujemy OLS jako rozwiązanie dla dowolnej gęstości takie, że jest akceptowalny. Oznacza to na przykład, że gęstości postaci są dopuszczalne ponieważ współczynnik nie zależy od parametru . Istnieje zatem nieskończona liczba takich rozkładów.
Innym ustawieniem, w którym oba estymatory pokrywają się, jest to, gdy dane pochodzą z sferycznie symetrycznego rozkładu , a mianowicie, gdy dane (wektorowe) mają gęstość warunkową z funkcją malejącą. (W tym przypadku OLS jest nadal dostępny, chociaż założenie o niezależności tylko w przypadku Normalnym). h ( | | y - X β | | ) h ( ⋅ ) ϵ iy
źródło
Nie wiedziałem o tym pytaniu, dopóki @ Xi'an nie zaktualizował się o odpowiedź. Istnieje bardziej ogólne rozwiązanie. Rozkłady wykładnicze rodziny z niektórymi parametrami ustalają wydajność na rozbieżności Bregmana. Dla takich rozkładów średnia to minimalizator. Środek minimalizujący OLS jest również środkiem. Dlatego dla wszystkich takich rozkładów powinny się one pokrywać, gdy funkcja liniowa jest powiązana ze średnim parametrem.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf
źródło