Ograniczone maksymalne prawdopodobieństwo z mniej niż pełną pozycją kolumny

14

To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie:

Y=X(α)β+ϵ,ϵNn(0,Σ(α)),

gdzie X(α) jest macierzą ( n×p ) sparametryzowaną przez αRk , podobnie jak Σ(α) . β jest nieznanym wektorem parametrów uciążliwych; interesuje nas oszacowanie α , a mamy kpn . Oszacowanie modelu według maksymalnego prawdopodobieństwa nie stanowi problemu, ale chcę użyć REML. Jest dobrze znane, patrz np. LaMotte , że prawdopodobieństwo AY , gdzie A jest dowolną półprostokątną macierzą taką, że można zapisaćAX=0

LREML(αY)|XX|1/2|Σ|1/2|XΣ1X|1/2exp{12rΣ1r},r=(IX(XΣ1X)+XΣ1)Y,

gdy jest pełną pozycją kolumnyX .

Moim problemem jest to, że dla niektórych całkowicie rozsądnych i interesujących naukowo macierz X ( α ) nie ma pełnej rangi kolumny. Wszystkie pochodne, które widziałem powyżej o ograniczonym prawdopodobieństwie, wykorzystują wyznaczniki równości, które nie mają zastosowania, gdy | X X | = 0 , czyli zakładają pełną rangę kolumny X . Oznacza to, że powyższe ograniczone prawdopodobieństwo jest poprawne tylko dla mojego ustawienia na częściach przestrzeni parametrów, a zatem nie jest tym, co chcę zoptymalizować.αX(α)|XX|=0X

Pytanie: Czy istnieją bardziej ogólne ograniczone prawdopodobieństwa, wyprowadzone w literaturze statystycznej lub gdzie indziej, bez założenia, że będzie pełną pozycją kolumny? Jeśli tak, to jak wyglądają?X

Niektóre spostrzeżenia:

  • Wyprowadzenie części wykładniczej nie stanowi problemu dla żadnego i można je zapisać w kategoriach odwrotności Moore-Penrose'a jak powyżejX(α)
  • Kolumny stanowią (dowolną) ortonormalną podstawę dla C ( X ) AC(X)
  • Dla znanego prawdopodobieństwo A Y można łatwo zapisać dla każdego α , ale oczywiście liczba wektorów bazowych, tj. Kolumn, w A zależy od rangi kolumny XAAYαAX

Jeśli ktoś zainteresowany tym pytaniem uważa, że ​​dokładna parametryzacja , daj mi znać, a ja je zanotuję. W tym momencie jednak najbardziej interesuje mnie REML dla ogólnego X prawidłowych wymiarów.X,Σ X


Bardziej szczegółowy opis modelu znajduje się tutaj. Niech będzie r- wymiarową autoregresją wektorową pierwszego rzędu [VAR (1)] gdzie v t i i d N (yt=μ+Ayt1+vt,t=1,,Tr . Załóżmy, że proces rozpoczyna się od pewnej stałej wartości y 0 w czasie t = 0 .vtiidN(0,Ω)y0t=0

Zdefiniuj . Model można zapisać w postaci modelu liniowego Y = X β + ε przy użyciu następujących definicji i notacji:Y=[y1,,yT]Y=Xβ+ε

X=[1TIr,C1B]β=[μ,y0μ]var(ε)1=C(ITΩ1)CC=[Ir00AIr00AIr]B=e1,TA,

gdzie oznacza T - wymiarowy wektor zer i e 1 , T pierwszą standardową podstawę wektorowych R T .1TTe1,TRT

Oznacz . Zauważ, że jeśli A nie jest pełną rangą, X ( α ) nie jest pełną rangą kolumny. Obejmuje to na przykład przypadki, w których jeden ze składników y t nie zależy od przeszłości.α=vec(A)AX(α)yt

Pomysł oszacowania VAR przy użyciu REML jest dobrze znany, na przykład, w literaturze dotyczącej regresji predykcyjnej (patrz np. Phillips i Chen i odnośniki tam zawarte).

Warto wyjaśnić, że macierz nie jest macierzą projektową w zwykłym sensie, po prostu wypada z modelu i jeśli nie jest a priori wiedza na temat A , o ile mogę powiedzieć, nie ma sposobu na ponowną parametryzację ma być pełna ranga.XA


Na stronie mat.stackexchange zamieściłem pytanie, które jest z tym związane w tym sensie, że odpowiedź na pytanie matematyczne może pomóc w ustaleniu prawdopodobieństwa udzielenia odpowiedzi na to pytanie.

ekvall
źródło
1
Być może jednym ze sposobów rozwiązania tego pytania jest pytanie, co dzieje się w liniowych modelach mieszanych, gdy macierz modeli nie ma pełnej rangi kolumn?
Greenparker
Dzięki za nagrodę @Greenparker. I tak, gdyby można było zapisać ograniczone prawdopodobieństwo dla liniowego modelu mieszanego z matrycą projektową o ustalonych efektach mniejszą niż pełna kolumna, to by pomogło.
ekvall

Odpowiedzi:

2

Wyprowadzenie części wykładniczej nie stanowi problemu dla żadnego X (α) X (α) i można je zapisać w kategoriach odwrotności Moore-Penrose'a jak wyżej

Mam wątpliwości, czy ta obserwacja jest poprawna. Uogólniona inwersja faktycznie nakłada dodatkowe liniowe ograniczenie na twoje estymatory [Rao i Mitra], dlatego powinniśmy rozważyć wspólne prawdopodobieństwo jako całość zamiast zgadywać „Odwrotność Moore-Penrose'a będzie działała dla części wykładniczej”. Wydaje się to formalnie poprawne, ale prawdopodobnie nie rozumiesz poprawnie modelu mieszanego.

(1) Jak poprawnie myśleć o modelach z efektami mieszanymi?

Musisz pomyśleć model mieszanego efektu w inny sposób, zanim spróbujesz podłączyć odwrotność g (odwrotność Moore'a-Penrose'a, która jest specjalnym rodzajem zwrotnego odwrotności g [Rao i Mitra]) mechanicznie do formuły podanej przez RMLE (Restricted Estymator maksymalnego prawdopodobieństwa, to samo poniżej.).

X=(fixedeffectrandomeffect)

Powszechnym sposobem myślenia efektu mieszanego jest to, że część losowego efektu w macierzy projektowej jest wprowadzana przez błąd pomiaru, który nosi inną nazwę „predyktor stochastyczny”, jeśli bardziej zależy nam na przewidywaniu niż na szacowaniu. Jest to także jedna historyczna motywacja badań macierzy stochastycznych w ustalaniu statystyk.

Mój problem polega na tym, że dla niektórych całkowicie rozsądnych i interesujących naukowo α α macierz X (α) X (α) nie ma pełnej rangi kolumny.

Biorąc pod uwagę ten sposób myślenia, prawdopodobieństwo, że nie jest pełnej rangi, wynosi zero. Wynika to z faktu, że funkcja wyznaczająca jest ciągła we wpisach macierzy, a rozkład normalny jest ciągłym rozkładem, który przypisuje zerowe prawdopodobieństwo pojedynczemu punktowi. Prawdopodobieństwo uszkodzenia rangi X ( α ) jest dodatnie, jeśli sparametryzowano ją w sposób patologiczny ( np. Α α α αX(α)X(α).(ααααrandomeffect)

Więc rozwiązanie twojego pytania jest również dość proste, po prostu zaburzasz swoją macierz projektową (zaburza tylko część z efektem stałym) i używasz zaburzonej macierzy (która jest pełna ranga), aby przeprowadzić wszystkie pochodne. O ile twój model nie ma skomplikowanych hierarchii lub sam X nie jest prawie osobliwy, nie widzę poważnego problemu, gdy weźmiesz ϵ 0 w wyniku końcowym, ponieważ funkcja wyznacznika jest ciągła i możemy wziąć limit wewnątrz funkcji wyznacznika. L iXϵ(α)=X(α)+ϵ(I000)Xϵ0. W formie perturbacji odwrotność X ϵ można uzyskać według twierdzenia Shermana-Morrisiona-Woodbury'ego. A wyznacznik macierzyI+Xpodano w standardowej książce algebry liniowej, takiej jak [Horn & Johnson]. Oczywiście możemy zapisać wyznacznik w kategoriach każdego wpisu macierzy, ale zaburzenie jest zawsze preferowane [Horn & Johnson].limϵ0|Xϵ|=|limϵ0Xϵ|XϵI+X

(2) Jak powinniśmy radzić sobie z uciążliwymi parametrami w modelu?

Jak widzisz, aby poradzić sobie z częścią efektu losowego w modelu, powinniśmy traktować ją jako rodzaj „uciążliwego parametru”. Problem polega na tym: czy RMLE jest najbardziej odpowiednim sposobem na wyeliminowanie uciążliwego parametru? Nawet w modelach GLM i efektach mieszanych RMLE nie jest jedynym wyborem. [Basu] wskazał, że istnieje wiele innych sposobów eliminacji parametrów przy ustalaniu oszacowania. Dzisiaj ludzie wybierają między RMLE a modelowaniem bayesowskim, ponieważ odpowiadają one dwóm popularnym rozwiązaniom komputerowym: odpowiednio EM i MCMC.

Moim zdaniem zdecydowanie bardziej odpowiednie jest wprowadzenie ołtarza w sytuacji wadliwej rangi w części ze stałym efektem. Możesz też sparametryzować swój model, aby uzyskać pełną rangę.

Ponadto, jeśli twój ustalony efekt nie ma pełnej rangi, możesz martwić się o źle określoną strukturę kowariancji, ponieważ stopnie swobody w ustalonych efektach powinny przejść do części błędu. Aby zobaczyć ten punkt jaśniej, może warto rozważyć również MLE (LSE) dla GLS (General najmniej gdzie Σ jest struktura kowariancji warunek błędu, w przypadku, gdy X ( α ) nie jest pełnej rangi.β^=(XΣ1X)1Σ1yΣX(α)

(3) Dalsze komentarze

Problem nie polega na tym, jak zmodyfikujesz RMLE, aby działał w przypadku, gdy część matrycy o ustalonym efekcie nie ma pełnej rangi; problemem jest to, że w takim przypadku sam model może być problematyczny, jeśli przypadek niepełnej rangi ma dodatnie prawdopodobieństwo.

Jednym z istotnych przypadków, z którymi się spotkałem, jest to, że w przypadku przestrzennym ludzie mogą chcieć zmniejszyć rangę części o stałym efekcie ze względu na względy obliczeniowe [Wikle].

Nie widziałem żadnego „interesującego naukowo” przypadku w takiej sytuacji, czy mógłbyś wskazać literaturę, w której sprawa nie w pełni rangi budzi poważne obawy? Chciałbym wiedzieć i dyskutować dalej, dzięki.

Odniesienie

[Rao i Mitra] Rao, Calyampudi Radhakrishna i Sujit Kumar Mitra. Uogólniona odwrotność macierzy i jej zastosowania. Vol. 7. New York: Wiley, 1971.

[Basu] Basu, Debabrata. „W sprawie eliminacji uciążliwych parametrów”. Journal of American Statistics Association 72.358 (1977): 355-366.

[Horn & Johnson] Horn, Roger A. i Charles R. Johnson. Analiza macierzowa. Prasa uniwersytecka Cambridge, 2012.

[Wikle] Wikle, Christopher K. „Reprezentacje niskiej rangi dla procesów przestrzennych”. Handbook of Spatial Statistics (2010): 107-118.

Henry.L
źródło
Thanks for your interest and very thought through answer, + 1 for effort. I will read it in more detail and come back with some clarifications. I think a first thing that I will have to clarify is that there are no random effects in this model, and the matrix X is not a design matrix at all, except perhaps by name fr lack of a better word; it's a highly non-linear function (deterministic) of the parameter α which consists of (the vectorization of) the coefficient matrix in a vector autoregressive process, so the concept of probability of being low-rank is not meaningful.
ekvall
@Student001 Yes, feel free to make any clarification since I also feel it more like a GLM instead of mixed model. I will try to answer again if I can:)
Henry.L
@Student001 If you can, do write the whole model and I would like to study such case, possibly AR(1) in spatial setting I guess.
Henry.L
"Given this way of thinking the likelihood, the probability that X(α) is not of full rank is zero." Right answer, wrong problem. The probability that it will be numerically not of full rank in finite precision is non-zero.
Mark L. Stone
@ MarkL.Stone Już podałem zaburzenie jako rozwiązanie, jeśli dokładnie czytasz wiersze, co jest standardowym rozwiązaniem osobliwości liczbowej. I OP powiedział, że zaktualizuje opis, więc myślę, że dojdziemy do konsensusu w sprawie poprawnie sformułowanego problemu.
Henry.L,