Załóżmy, że obserwuję wektory zmiennych niezależnych i i zmienną zależną . Chciałbym dopasować model o postaci: gdzie jest jakąś podwójnie różniczkowalną funkcją o dodatniej wartości, jest nieznanym parametrem skalowania, a jest średnią losową zmienną Gaussa o wariancji jednostkowej (zakładaną jako niezależną od i ). Jest to zasadniczo konfiguracja testu heteroskedastyczności Koenkera (przynajmniej tak dalece, jak to rozumiem).
Mam obserwacji z i , i chciałbym oszacować i . Mam jednak kilka problemów:
- Nie jestem pewien, jak przedstawić problem oszacowania jako coś w rodzaju najmniejszych kwadratów (zakładam, że istnieje dobrze znana sztuczka). Moje pierwsze przypuszczenie byłoby takie jak
ale nie jestem pewien, jak rozwiązać to numerycznie (być może mogłaby to zrobić iteracyjna metoda quasi-Newtona).
- Zakładając, że potrafię postawić problem w rozsądny sposób i znaleźć jakieś oszacowania , Chciałbym poznać rozkład szacunków, aby np. Wykonać testy hipotez. Byłbym w porządku z osobnym testowaniem dwóch wektorów współczynników, ale wolałbym jakiś sposób przetestowania, np za dane .
Odpowiedzi:
W nieco bardziej ogólnym kontekście zY na n -wymiarowy wektor y - obserwacje (odpowiedzi lub zmienne zależne), X na n × p macierz x - obserwacje (zmienne towarzyszące lub zmienne zależne) i θ = (β1,β2), σ) parametry takie, że Y∼ N.( Xβ1, Σ (β2), σ) ) wtedy prawdopodobieństwo minus-log jest
Ostatnia propozycja przemawia do mnie, ponieważ opiera się na rozwiązaniach, które już dobrze znam. Ponadto pierwsza iteracja jest czymś, co chciałbym rozważyć. To znaczy, najpierw obliczyć wstępne oszacowanieβ1 przez zwykłe najmniejsze kwadraty ignorując potencjalną heteroskedastyczność, a następnie dopasuj gamma glm do kwadratowych reszt, aby uzyskać wstępne oszacowanie β2) - aby sprawdzić, czy bardziej skomplikowany model wydaje się opłacalny. Iteracje uwzględniające heteroskedastyczność w roztworze najmniejszych kwadratów, ponieważ wagi mogą następnie poprawić się po oszacowaniu.
Jeśli chodzi o drugą część pytania, prawdopodobnie rozważyłbym obliczenie przedziału ufności dla kombinacji liniowejwT.1β1+wT.2)β2) albo przez użycie standardowej asymptotyki MLE (sprawdzanie za pomocą symulacji, że asymptotyka działa) lub przez ładowanie.
Edycja: Przez standardowe asymptotyki MLE mam na myśli stosowanie wielowymiarowej normalnej aproksymacji do rozkładu MLE z macierzą kowariancji odwrotnej informacji Fishera. Informacja Fishera jest z definicji macierzą kowariancji gradientul . To zależy ogólnie od parametrów. Jeśli możesz znaleźć wyrażenie analityczne dla tej ilości, możesz spróbować podłączyć MLE. Alternatywnie, możesz oszacować informacje Fishera na podstawie zaobserwowanej informacji Fishera, którą jest Hesjanl w MLE. Twój parametr będący przedmiotem zainteresowania to liniowa kombinacja parametrów w dwóchβ -wektory, stąd w przybliżeniu wielowymiarowej normalnej MLE można znaleźć normalne przybliżenie rozkładu estymatorów, jak opisano tutaj . Daje to przybliżony błąd standardowy i można obliczyć przedziały ufności. Jest dobrze opisany w wielu (matematycznych) statystykach, ale dość przystępną prezentacją, którą mogę polecić, jest In All Likelihood Yudi Pawitan. W każdym razie formalne wyprowadzenie teorii asymptotycznej jest dość skomplikowane i opiera się na szeregu warunków prawidłowości i daje tylko prawidłowy asymptotycznydystrybucje. Dlatego w razie wątpliwości zawsze przeprowadzałbym niektóre symulacje z nowym modelem, aby sprawdzić, czy mogę zaufać wynikom w zakresie realistycznych parametrów i wielkości próbek. Proste, nieparametryczne ładowanie początkowe, w którym próbkujesz trzykrotnie(yja,xja,zja) z obserwowanego zestawu danych z wymianą może być użyteczną alternatywą, jeśli procedura dopasowania nie jest zbyt czasochłonna.
źródło