Wnioskowanie w modelu liniowym z warunkową heteroskedastycznością

9

Załóżmy, że obserwuję wektory zmiennych niezależnych i i zmienną zależną . Chciałbym dopasować model o postaci: gdzie jest jakąś podwójnie różniczkowalną funkcją o dodatniej wartości, jest nieznanym parametrem skalowania, a jest średnią losową zmienną Gaussa o wariancji jednostkowej (zakładaną jako niezależną od i ). Jest to zasadniczo konfiguracja testu heteroskedastyczności Koenkera (przynajmniej tak dalece, jak to rozumiem).xzy

y=xβ1+σg(zβ2)ϵ,
gσϵxz

Mam obserwacji z i , i chciałbym oszacować i . Mam jednak kilka problemów:nx,zyβ1β2

  1. Nie jestem pewien, jak przedstawić problem oszacowania jako coś w rodzaju najmniejszych kwadratów (zakładam, że istnieje dobrze znana sztuczka). Moje pierwsze przypuszczenie byłoby takie jak
    minβ1,β2(i=1n(yixiβ1)2g(ziβ2)2)(i=1n1g(ziβ2)2)1,
    ale nie jestem pewien, jak rozwiązać to numerycznie (być może mogłaby to zrobić iteracyjna metoda quasi-Newtona).
  2. Zakładając, że potrafię postawić problem w rozsądny sposób i znaleźć jakieś oszacowania β^1,β^2, Chciałbym poznać rozkład szacunków, aby np. Wykonać testy hipotez. Byłbym w porządku z osobnym testowaniem dwóch wektorów współczynników, ale wolałbym jakiś sposób przetestowania, np H.0:w1β1+w2)β2)do za dane w1,w2),do.
shabbychef
źródło
Dobre pytanie. Czy masz pojęcie o czymsolwygląda jak ? czy to jest gładkie? ma skoki? Zamiast najmniejszego kwadratu próbowałeś maksymalnego prawdopodobieństwa (czy znasz ten projekt projecteuclid.org/… ?)
robin girard
@robin girard: MLE jest dobrym pomysłem na pytanie 1. Podejrzewam, że w przypadku błędów gaussowskich MLE da identyczne oszacowania jak moja minimalizacja ad hoc . Jeśli chodzi osol, jak zauważyłem, możemy założyć, że jest to wartość dodatnia i można ją dwukrotnie rozróżnić. Prawdopodobnie możemy założyć, że jest on również wypukły i być może możemy założyć, że jest analityczny.
shabbychef

Odpowiedzi:

5

W nieco bardziej ogólnym kontekście z Y na n-wymiarowy wektor y- obserwacje (odpowiedzi lub zmienne zależne), X na n×p macierz x- obserwacje (zmienne towarzyszące lub zmienne zależne) i θ=(β1,β2),σ) parametry takie, że YN.(Xβ1,Σ(β2),σ)) wtedy prawdopodobieństwo minus-log jest

l(β1,β2),σ)=12)(Y-Xβ1)T.Σ(β2),σ)-1(Y-Xβ1)+12)log|Σ(β2),σ)|
W pytaniu PO Σ(β2),σ) jest przekątna z
Σ(β2),σ)jaja=σ2)sol(zjaT.β2))2)
więc determinant staje się σ2)nja=1nsol(zjaT.β2))2) i wynikowe prawdopodobieństwo logarytmu ujemnego staje się
12)σ2)ja=1n(yja-xjaT.β1)2)sol(zjaT.β2))2)+nlogσ+ja=1nlogsol(zjaT.β2))
Istnieje kilka sposobów podejścia do minimalizacji tej funkcji (przy założeniu, że trzy parametry są niezależne od zmian).
  • Możesz spróbować zminimalizować tę funkcję za pomocą standardowego algorytmu optymalizacji, pamiętając o tym ograniczeniu σ>0.
  • Możesz obliczyć profil minus-log-prawdopodobieństwo (β1,β2)) poprzez minimalizację σ dla ustalonych (β1,β2)), a następnie podłącz wynikową funkcję do standardowego nieograniczonego algorytmu optymalizacji.
  • Możesz na przemian optymalizować każdy z trzech parametrów osobno. Optymalizacja ponadσ można to zrobić analitycznie, optymalizując ponad β1 jest ważonym problemem regresji metodą najmniejszych kwadratów i optymalizacją β2) odpowiada dopasowaniu do uogólnionego modelu liniowego gamma sol2) odwrotny link.

Ostatnia propozycja przemawia do mnie, ponieważ opiera się na rozwiązaniach, które już dobrze znam. Ponadto pierwsza iteracja jest czymś, co chciałbym rozważyć. To znaczy, najpierw obliczyć wstępne oszacowanieβ1 przez zwykłe najmniejsze kwadraty ignorując potencjalną heteroskedastyczność, a następnie dopasuj gamma glm do kwadratowych reszt, aby uzyskać wstępne oszacowanie β2) -aby sprawdzić, czy bardziej skomplikowany model wydaje się opłacalny. Iteracje uwzględniające heteroskedastyczność w roztworze najmniejszych kwadratów, ponieważ wagi mogą następnie poprawić się po oszacowaniu.

Jeśli chodzi o drugą część pytania, prawdopodobnie rozważyłbym obliczenie przedziału ufności dla kombinacji liniowej w1T.β1+w2)T.β2) albo przez użycie standardowej asymptotyki MLE (sprawdzanie za pomocą symulacji, że asymptotyka działa) lub przez ładowanie.

Edycja: Przez standardowe asymptotyki MLE mam na myśli stosowanie wielowymiarowej normalnej aproksymacji do rozkładu MLE z macierzą kowariancji odwrotnej informacji Fishera. Informacja Fishera jest z definicji macierzą kowariancji gradientul. To zależy ogólnie od parametrów. Jeśli możesz znaleźć wyrażenie analityczne dla tej ilości, możesz spróbować podłączyć MLE. Alternatywnie, możesz oszacować informacje Fishera na podstawie zaobserwowanej informacji Fishera, którą jest Hesjanlw MLE. Twój parametr będący przedmiotem zainteresowania to liniowa kombinacja parametrów w dwóchβ-wektory, stąd w przybliżeniu wielowymiarowej normalnej MLE można znaleźć normalne przybliżenie rozkładu estymatorów, jak opisano tutaj . Daje to przybliżony błąd standardowy i można obliczyć przedziały ufności. Jest dobrze opisany w wielu (matematycznych) statystykach, ale dość przystępną prezentacją, którą mogę polecić, jest In All Likelihood Yudi Pawitan. W każdym razie formalne wyprowadzenie teorii asymptotycznej jest dość skomplikowane i opiera się na szeregu warunków prawidłowości i daje tylko prawidłowy asymptotycznydystrybucje. Dlatego w razie wątpliwości zawsze przeprowadzałbym niektóre symulacje z nowym modelem, aby sprawdzić, czy mogę zaufać wynikom w zakresie realistycznych parametrów i wielkości próbek. Proste, nieparametryczne ładowanie początkowe, w którym próbkujesz trzykrotnie(yja,xja,zja) z obserwowanego zestawu danych z wymianą może być użyteczną alternatywą, jeśli procedura dopasowania nie jest zbyt czasochłonna.

NRH
źródło
jakie standardowe asymptotyki MLE?
shabbychef
@shabbychef, było późno. Podałem bardziej szczegółowe wyjaśnienie. Należy zauważyć, że aby asymptotyki działały w teorii zgodnie z wyjaśnieniem, model musi być poprawny, a estymatorem musi być MLE. Bardziej ogólne wyniki można uzyskać w ramach ogólnych funkcji estymacji i równań estymacji, patrz na przykład książka Quasi-prawdopodobieństwo i ... autorstwa Heyde.
NRH