Regresja liniowa: jakikolwiek nienormalny rozkład dający tożsamość OLS i MLE?

13

To pytanie jest inspirowane długą dyskusją w komentarzach tutaj: W jaki sposób regresja liniowa wykorzystuje rozkład normalny?

W zwykłym modelu regresji liniowej, dla uproszczenia, zapisanym tutaj tylko z jednym predyktorem: gdzie są znanymi stałymi, a są zerowymi średnimi niezależnymi błędami. Jeśli dodatkowo przyjmiemy rozkład normalny dla błędów, wówczas zwykłe estymatory najmniejszych kwadratów i estymatory maksymalnego prawdopodobieństwa są identyczne.x i ϵ i β 0 , β 1

Yi=β0+β1xi+ϵi
xiϵiβ0,β1

Więc moje proste pytanie: czy istnieje jakikolwiek inny rozkład terminów błędu, taki że mle są identyczne ze zwykłym estymatorem najmniejszych squaeres? Jedna implikacja jest łatwa do pokazania, druga nie.

kjetil b halvorsen
źródło
1
(+1) Musiałby to być rozkład wyśrodkowany wokół zera i wydaje się, że byłby pomocny, gdyby był symetryczny. Niektórzy kandydaci, którzy przychodzą na myśl, na przykład rozkład t- lub Laplace'a, nie wydają się załatwić sprawy, ponieważ MLE, nawet w stałym jedynym przypadku, nie jest dostępny w formie zamkniętej lub podawany odpowiednio przez medianę.
Christoph Hanck
patrz także stats.stackexchange.com/questions/99014/… , wydaje się, że jest tylko tyle do znalezienia
Christoph Hanck
Jestem pewien, że odpowiedź brzmi „nie”. Trudno jednak napisać dokładny dowód.
Gordon Smyth

Odpowiedzi:

11

W celu oszacowania maksymalnego prawdopodobieństwa obliczamy

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

ostatnia zależność uwzględniająca strukturę liniowości równania regresji.

Dla porównania estymator OLS spełnia wymagania

ϵixi=0

Aby uzyskać identyczne wyrażenia algebraiczne dla współczynników nachylenia, musimy mieć gęstość dla składnika błędu, tak aby

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

Są to równania różniczkowe postaci które mają rozwiązaniay=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

Każda funkcja, która ma to jądro i integruje się z jednością w odpowiedniej domenie, sprawi, że MLE i OLS dla współczynników nachylenia będą identyczne. Mianowicie szukamy

g(x)=Aexp{±12cx2}:abg(x)dx=1

Czy istnieje taki który nie jest normalną gęstością (lub półnormalną lub pochodną funkcji błędu)? g

Na pewno. Ale jeszcze jedną rzeczą, którą należy wziąć pod uwagę, jest następująca: jeśli użyjemy znaku plus w wykładniku i symetrycznej obsłudze na przykład wokół zera, otrzymamy gęstość, która ma unikalne minimum pośrodku i dwie lokalne maksima na granice wsparcia.

Alecos Papadopoulos
źródło
Świetna odpowiedź (+1), ale jeśli używa się znaku plus w funkcji, czy jest to nawet gęstość? Wydaje się zatem, że funkcja ma całkę nieskończoną, a zatem nie może być znormalizowana do funkcji gęstości. W takim przypadku pozostaje nam jedynie rozkład normalny.
Ben - Przywróć Monikę
1
@Ben Dzięki. Wydaje się, że domyślnie zakładasz, że zakres zmiennej losowej będzie miał wartość plus / minus nieskończoność. Ale możemy zdefiniować wartość rv do zasięgu w ograniczonym przedziale, w którym to przypadku możemy bardzo dobrze użyć znaku plus. Dlatego w moich wyrażeniach użyłem jako granic integracji . (a,b)
Alecos Papadopoulos
To prawda - zakładałem, że.
Ben - Przywróć Monikę
5

Jeśli zdefiniujemy OLS jako rozwiązanie dla dowolnej gęstości takie, że jest akceptowalny. Oznacza to na przykład, że gęstości postaci są dopuszczalne ponieważ współczynnik nie zależy od parametru . Istnieje zatem nieskończona liczba takich rozkładów.

argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
f 0 ( y | x ) ( β 0 , β 1 )
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
f0(y|x)(β0,β1)

Innym ustawieniem, w którym oba estymatory pokrywają się, jest to, gdy dane pochodzą z sferycznie symetrycznego rozkładu , a mianowicie, gdy dane (wektorowe) mają gęstość warunkową z funkcją malejącą. (W tym przypadku OLS jest nadal dostępny, chociaż założenie o niezależności tylko w przypadku Normalnym). h ( | | y - X β | | ) h ( ) ϵ iy

h(||yXβ||)
h()ϵi
Xi'an
źródło
1
Nie wydaje mi się to poprawne. Jeśli użyjesz innego rozkładu sferyczno-symetrycznego, czy nie doprowadziłoby to do minimalizacji innej funkcji normy niż kwadrat (a zatem nie byłby to oszacowanie metodą najmniejszych kwadratów)?
Ben - Przywróć Monikę
1

Nie wiedziałem o tym pytaniu, dopóki @ Xi'an nie zaktualizował się o odpowiedź. Istnieje bardziej ogólne rozwiązanie. Rozkłady wykładnicze rodziny z niektórymi parametrami ustalają wydajność na rozbieżności Bregmana. Dla takich rozkładów średnia to minimalizator. Środek minimalizujący OLS jest również środkiem. Dlatego dla wszystkich takich rozkładów powinny się one pokrywać, gdy funkcja liniowa jest powiązana ze średnim parametrem.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

wprowadź opis zdjęcia tutaj

Cagdas Ozgenc
źródło