Pomysł i intuicja za quasi-maksymalnym oszacowaniem prawdopodobieństwa (QMLE)

17

Pytanie (pytania): Jaki jest pomysł i intuicja za quasi-maksymalnym oszacowaniem prawdopodobieństwa (QMLE; znany również jako pseudo maksymalne oszacowanie prawdopodobieństwa, PMLE)? Co sprawia, że ​​estymator działa, gdy faktyczny rozkład błędów nie odpowiada założonemu rozkładowi błędów?

Strona Wikipedii dla QMLE jest w porządku (krótki, intuicyjny, do punktu), ale mogę użyć trochę więcej intuicji i szczegółów, być może także ilustrację. Inne referencje są mile widziane. (Pamiętam, że przeglądałem kilka podręczników ekonometrii, szukając materiału na temat QMLE, i ku mojemu zaskoczeniu, QMLE zostało omówione tylko w jednym lub dwóch z nich, np. Wooldridge „Analiza ekonometryczna danych przekrojów i paneli” (2010), rozdział 13 Sekcja 11, s. 502–517.)

Richard Hardy
źródło
2
Czy czytałeś na ten temat artykuły White'a?
hejseb
2
@hejseb, Może nie, przynajmniej nie do końca pamiętam. Czy to ten ?
Richard Hardy,
1
Tak, to jest to. Oczywiście opiera się na Huberze (1967) i uznaje to w pełni. Ale w ekonometrii prawie nie ma. A artykuł Hubera, z całym szacunkiem, jest ledwo czytelny na poziomie technicznym; Hal White zdecydowanie przyczynił się do łatwiejszego zrozumienia problemu.
StasK

Odpowiedzi:

7

„Co sprawia, że ​​estymator działa, gdy faktyczny rozkład błędów nie odpowiada założonemu rozkładowi błędów?”

Zasadniczo QMPLE tego nie robi „działa” w tym sensie, że jest „dobrym” estymatorem. Teoria opracowana wokół QMLE jest przydatna, ponieważ doprowadziła do testów błędnej specyfikacji.

Z pewnością QMLE konsekwentnie szacuje wektor parametrów, który minimalizuje rozbieżność Kullbacka-Leibera między rozkładem rzeczywistym a określonym. Brzmi dobrze, ale minimalizacja tej odległości nie oznacza, że ​​zminimalizowana odległość nie będzie ogromna.

Mimo to czytamy, że istnieje wiele sytuacji, w których QMLE jest spójnym estymatorem prawdy wektora parametrów. Trzeba to oceniać indywidualnie dla każdego przypadku, ale pozwólcie, że podam jedną bardzo ogólną sytuację, która pokazuje, że w QMLE nie ma nic nieodłącznego, co czyni ją spójną z prawdziwym wektorem ...

... Raczej jest to, że zbiega się z innym estymatorem, który jest zawsze spójny (utrzymując ergodyczno-stacjonarne założenie próbki): staromodny estymator Metody Momentów.

Innymi słowy, w przypadku wątpliwości co do rozkładu, strategią, którą należy wziąć pod uwagę, jest „zawsze określ rozkład, dla którego estymator maksymalnego prawdopodobieństwa dla parametrów będących przedmiotem zainteresowania pokrywa się z estymatorem metody momentów” : w ten sposób bez względu na to, jak daleko od znaku jest twoim założeniem dystrybucyjnym, estymator będzie przynajmniej spójny.

Możesz doprowadzić tę strategię do absurdalnych ekstremów: załóż, że masz bardzo dużą próbkę id ze zmiennej losowej, gdzie wszystkie wartości są dodatnie. Kontynuuj i załóż, że zmienna losowa jest zwykle rozkładana i zastosuj maksymalne prawdopodobieństwo dla średniej i wariancji: twoja QMLE będzie spójna dla prawdziwych wartości.

Oczywiście rodzi to pytanie, dlaczego udawanie, że stosujesz MLE, skoro w zasadzie to, co robimy, polega na mocnych stronach Metody Momentów (która gwarantuje także asymptotyczną normalność)?

W innych bardziej wyrafinowanych przypadkach można wykazać, że QMLE jest spójny z parametrami będącymi przedmiotem zainteresowania, jeśli możemy powiedzieć, że poprawnie określiliśmy funkcję warunkową średnią, ale nie rozkład (jest to na przykład przypadek dla QMLE z puli Poissona - patrz Wooldridge) .

Alecos Papadopoulos
źródło
To jest interesujące. Czy możesz podać jakieś odniesienia do takiej teorii?
kjetil b halvorsen
1
@kjetilbhalvorsen To nie jest jakaś rozwinięta struktura teoretyczna, ponieważ w oczywisty sposób syntetyzuje ona bardzo podstawowe wyniki. Synteza pojawiła się w mojej głowie, gdy dręczyły mnie konsekwencje błędnej specyfikacji. I wierzę, że istnieje także strona „polityczna”, która nie jest głośno reklamowana w artykułach naukowych: nie chcielibyśmy teraz zdetronizować króla MLE, prawda?
Alecos Papadopoulos,
8

0=i=1nS(β,Xi,Yi)=DTW(Yg1(XTβ))
D=βg1(XTβ)W=V1

Co ciekawe, sformułowanie to posłużyło do estymatora typu metody momentu, w którym można po prostu „ustawić rzecz, którą chcą oszacować” w RHS wyrażenia w nawiasach i ufać, że wyrażenie to zbiegnie się w „to interesujące rzecz". To była proto forma szacowania równań.

Szacowanie równań nie było nową koncepcją. W rzeczywistości próby jeszcze w latach 70. i 70. XIX wieku, aby poprawnie przedstawić wyprowadzone twierdzenia graniczne EE z EE przy użyciu rozszerzeń Taylora, ale brak powiązania z modelem probabilistycznym był przyczyną niezgody wśród krytycznych recenzentów.

S

Jednak w przeciwieństwie do odpowiedzi powyżej, quasilikelihood jest szeroko stosowany. Jedna bardzo miła dyskusja w McCullogh i Nelder dotyczy modelowania populacji krabów podkowiastych. Podobnie jak ludzie, ich nawyki godowe są po prostu dziwne: wiele samców może gromadzić się u jednej samicy w niezmierzonych „skupiskach”. Z punktu widzenia ekologów obserwowanie tych klastrów znacznie wykracza poza zakres ich pracy, ale mimo to ustalenie wielkości populacji na podstawie połowu i uwolnienia stanowiło poważne wyzwanie. Okazuje się, że ten wzór kojarzenia prowadzi do modelu Poissona ze znacznym niedostatkiem dyspersji, to znaczy wariancja jest proporcjonalna, ale nie równa się średniej.

Dyspersje są uważane za parametry uciążliwe w tym sensie, że generalnie nie opieramy wnioskowania na temat ich wartości, a wspólne oszacowanie ich na podstawie jednego prawdopodobieństwa skutkuje wysoce nieregularnymi prawdopodobieństwami. Quasilikelihood jest bardzo użytecznym obszarem statystyki, szczególnie w świetle późniejszych prac uogólnionymi równaniami szacunkowymi .

AdamO
źródło
1
(+1) Bardzo przydatna odpowiedź.
Alecos Papadopoulos
2

Miałem podobne pytanie, jak oryginalne pytanie zamieszczone tutaj od Richarda Hardy'ego. Mylę się, że parametry oszacowane na podstawie quasi-ML mogą nie istnieć w nieznanym „prawdziwym” rozkładzie. W takim przypadku co dokładnie oznacza „spójność”? Do czego zbliżają się oszacowane parametry?

Po sprawdzeniu niektórych odniesień ( White (1982) powinien być jednym z oryginalnych artykułów, ale jest zamknięty). Pomocną ekspozycją, którą znalazłem, jest http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf ), moje myśli w prostym języku angielskim są następujące: po przyznaniu, że rozkład, który zakładamy, jest jedynie przybliżeniem nieznanego prawdziwego, praktyczną rzeczą, jaką możemy zrobić, jest znaleźć wartość parametru, aby zminimalizować ich odległość (odległość Kullbacka-Leiblera)być precyzyjnym). Piękno teorii polega na tym, że bez konieczności poznania prawdziwego rozkładu szacowane parametry od quasi-ML są zbieżne z tym parametrem minimalizującym odległość (oczywiście istnieją inne przydatne wyniki z teorii, takie jak asymptotyczny rozkład oszacowanego parametry itp., ale nie są one przedmiotem mojego pytania tutaj).

Tak jak Alecos Papadopolous wspomniał w swojej odpowiedzi powyżej, zminimalizowana odległość może być nadal duża. Zatem rozkład, który zakładamy, może być słabym przybliżeniem do prawdziwego. Wszystko, co quasi-ML może zrobić, to uczynić nasz zakładany rozkład możliwie najbliższym nieznanemu prawdziwemu. Mam nadzieję, że moje doświadczenia tutaj udostępnione mogą być pomocne dla innych osób mających podobne zamieszanie.

Szczery
źródło