Hesjan o prawdopodobieństwie profilu wykorzystany do standardowego oszacowania błędu

13

To pytanie jest motywowane tym . Poszukałem dwóch źródeł i oto, co znalazłem.

A. van der Vaart, Statystyki asymptotyczne:

Rzadko jest możliwe jednoznaczne obliczenie prawdopodobieństwa profilu, ale jego liczbowa ocena jest często wykonalna. Wówczas prawdopodobieństwo profilu może służyć do zmniejszenia wymiaru funkcji wiarygodności. Funkcje wiarygodności profilu są często używane w taki sam sposób, jak (zwykłe) funkcje wiarygodności modeli parametrycznych. Oprócz przy różnych punktów równej estymatory θ druga pochodna w θ jest stosowany jako oszacowanie minus odwrotności macierzy kowariancji asymptotycznej e. Ostatnie badania wydają się potwierdzać tę praktykę.θ^θ^

J. Wooldridge, Analiza ekonometryczna danych przekroju i panelu (to samo w obu wydaniach):

Jako urządzenie do badania właściwości asymptotycznych skoncentrowana funkcja celu ma ograniczoną wartość, ponieważ ogólnie zależy od całego W , w którym to przypadku funkcja celu nie może być zapisana jako suma niezależnych, identycznie rozmieszczonych sum. Jedno ustawienie, w którym równanie (12,89) jest sumą funkcji iid, pojawia się, gdy skoncentrujemy indywidualne efekty z niektórych nieliniowych modeli danych panelowych. Ponadto skoncentrowana funkcja celu może być użyteczna do ustalenia równoważności pozornie różnych podejść do szacowania.g(W,β)W

Wooldridge omawia problem w szerszym kontekście estymatorów M. Tak więc dotyczy to również estymatorów maksymalnego prawdopodobieństwa.

Otrzymujemy więc dwie różne odpowiedzi na to samo pytanie. Diabeł moim zdaniem tkwi w szczegółach. W przypadku niektórych modeli możemy bezpiecznie używać hessian prawdopodobieństwa profilu, w przypadku niektórych modeli nie. Czy są jakieś ogólne wyniki, które dają warunki, kiedy możemy to zrobić (lub nie możemy)?

mpiktas
źródło
Te fragmenty nie wydają się w ogóle dotyczyć tego samego pytania: pierwsze dotyczy obliczeń numerycznych dla danego zestawu danych, a drugie dotyczy „badania właściwości asymptotycznych”. Używanie Hesji jest zazwyczaj czysto matematycznym rozważaniem z typowo prostymi odpowiedziami: zobacz naszą powiązaną dyskusję .
whuber
van der Vaart mówi, że Hesse jest używany do obliczania asymptotycznej macierzy kowariancji. Ponieważ Wooldridge mówi, że skoncentrowanej funkcji celu nie można użyć do badania właściwości asymptotycznych, oznacza to, że jej hessian (numeryczny) nie może być użyty do oszacowania błędów standardowych. Nie zapomniałem naszej dyskusji, więc biorę ten fragment z ziarnem soli. Jednak ani van der Vaart, ani Wooldridge nie podali żadnych referencji. Przed przeprowadzeniem obszernych badań chciałem tylko sprawdzić, czy to może być coś dobrze znanego.
mpiktas
Znakomity punkt: jakoś przeoczyłem „asymptotę” w cytacie van der Vaarta. Jednak nadal może nie być sprzeczności: Wooldridge mówi jedynie, że oczywiste proste uzasadnienie (iid summands) nie jest dostępne dla wykazania, że ​​podejście van der Vaarta działa; Wooldridge nie mówi, że to nie działa ;-).
whuber
@ Whuber, tak, ale on nie mówi, że to też działa :) Wiem, że może nie być sprzeczności, chcę tylko wiedzieć, czy są jakieś konkretne wyniki.
mpiktas
2
Zobacz na profilu Likelihood (SA Murphy i AW van der Vaart), jstor.org/pss/2669386
whuber

Odpowiedzi:

1

W przypadku niektórych modeli możemy bezpiecznie używać hessian prawdopodobieństwa profilu, w przypadku niektórych modeli nie

Niestety jest to na razie prawdą i mało prawdopodobne, aby się zmieniło.

Najbardziej zrozumiałą dyskusją, którą znam, są reguły wnioskowania warunkowego: czy istnieje uniwersalna definicja nieformacji? B Jørgensen - Metody statystyczne i zastosowania, 1994.

W przypadku niektórych zagadnień związanych z rozwiązywaniem problemów z prawdopodobieństwem profilu Stafford, JE (1996). Solidna korekta prawdopodobieństwa profilu, Annals of Statistics, 24, 336-52.

phaneron
źródło
1

Szybka odpowiedź: omówiono to w trzecim rozdziale OE Barndorff-Nielsen i DR Cox: Wnioskowanie i asymptotyki, Chapman i Hall, strona 90, równanie 3.31, które przypisują Patefieldowi. Doszli do wniosku, że dla parametru skalarnego jest to poprawne (nie analizują innych przypadków).

kjetil b halvorsen
źródło