To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie:
gdzie jest macierzą ( ) sparametryzowaną przez , podobnie jak . jest nieznanym wektorem parametrów uciążliwych; interesuje nas oszacowanie , a mamy . Oszacowanie modelu według maksymalnego prawdopodobieństwa nie stanowi problemu, ale chcę użyć REML. Jest dobrze znane, patrz np. LaMotte , że prawdopodobieństwo , gdzie jest dowolną półprostokątną macierzą taką, że można zapisać
gdy jest pełną pozycją kolumny .
Moim problemem jest to, że dla niektórych całkowicie rozsądnych i interesujących naukowo macierz X ( α ) nie ma pełnej rangi kolumny. Wszystkie pochodne, które widziałem powyżej o ograniczonym prawdopodobieństwie, wykorzystują wyznaczniki równości, które nie mają zastosowania, gdy | X ′ X | = 0 , czyli zakładają pełną rangę kolumny X . Oznacza to, że powyższe ograniczone prawdopodobieństwo jest poprawne tylko dla mojego ustawienia na częściach przestrzeni parametrów, a zatem nie jest tym, co chcę zoptymalizować.
Pytanie: Czy istnieją bardziej ogólne ograniczone prawdopodobieństwa, wyprowadzone w literaturze statystycznej lub gdzie indziej, bez założenia, że będzie pełną pozycją kolumny? Jeśli tak, to jak wyglądają?
Niektóre spostrzeżenia:
- Wyprowadzenie części wykładniczej nie stanowi problemu dla żadnego i można je zapisać w kategoriach odwrotności Moore-Penrose'a jak powyżej
- Kolumny stanowią (dowolną) ortonormalną podstawę dla C ( X ) ⊥
- Dla znanego prawdopodobieństwo A ′ Y można łatwo zapisać dla każdego α , ale oczywiście liczba wektorów bazowych, tj. Kolumn, w A zależy od rangi kolumny X
Jeśli ktoś zainteresowany tym pytaniem uważa, że dokładna parametryzacja , daj mi znać, a ja je zanotuję. W tym momencie jednak najbardziej interesuje mnie REML dla ogólnego X prawidłowych wymiarów.
Bardziej szczegółowy opis modelu znajduje się tutaj. Niech będzie r- wymiarową autoregresją wektorową pierwszego rzędu [VAR (1)] gdzie v t i i d ∼ N ( . Załóżmy, że proces rozpoczyna się od pewnej stałej wartości y 0 w czasie t = 0 .
Zdefiniuj . Model można zapisać w postaci modelu liniowego Y = X β + ε przy użyciu następujących definicji i notacji:
gdzie oznacza T - wymiarowy wektor zer i e 1 , T pierwszą standardową podstawę wektorowych R T .
Oznacz . Zauważ, że jeśli A nie jest pełną rangą, X ( α ) nie jest pełną rangą kolumny. Obejmuje to na przykład przypadki, w których jeden ze składników y t nie zależy od przeszłości.
Pomysł oszacowania VAR przy użyciu REML jest dobrze znany, na przykład, w literaturze dotyczącej regresji predykcyjnej (patrz np. Phillips i Chen i odnośniki tam zawarte).
Warto wyjaśnić, że macierz nie jest macierzą projektową w zwykłym sensie, po prostu wypada z modelu i jeśli nie jest a priori wiedza na temat A , o ile mogę powiedzieć, nie ma sposobu na ponowną parametryzację ma być pełna ranga.
Na stronie mat.stackexchange zamieściłem pytanie, które jest z tym związane w tym sensie, że odpowiedź na pytanie matematyczne może pomóc w ustaleniu prawdopodobieństwa udzielenia odpowiedzi na to pytanie.
Odpowiedzi:
Mam wątpliwości, czy ta obserwacja jest poprawna. Uogólniona inwersja faktycznie nakłada dodatkowe liniowe ograniczenie na twoje estymatory [Rao i Mitra], dlatego powinniśmy rozważyć wspólne prawdopodobieństwo jako całość zamiast zgadywać „Odwrotność Moore-Penrose'a będzie działała dla części wykładniczej”. Wydaje się to formalnie poprawne, ale prawdopodobnie nie rozumiesz poprawnie modelu mieszanego.
(1) Jak poprawnie myśleć o modelach z efektami mieszanymi?■
Musisz pomyśleć model mieszanego efektu w inny sposób, zanim spróbujesz podłączyć odwrotność g (odwrotność Moore'a-Penrose'a, która jest specjalnym rodzajem zwrotnego odwrotności g [Rao i Mitra]) mechanicznie do formuły podanej przez RMLE (Restricted Estymator maksymalnego prawdopodobieństwa, to samo poniżej.).
Powszechnym sposobem myślenia efektu mieszanego jest to, że część losowego efektu w macierzy projektowej jest wprowadzana przez błąd pomiaru, który nosi inną nazwę „predyktor stochastyczny”, jeśli bardziej zależy nam na przewidywaniu niż na szacowaniu. Jest to także jedna historyczna motywacja badań macierzy stochastycznych w ustalaniu statystyk.
Biorąc pod uwagę ten sposób myślenia, prawdopodobieństwo, że nie jest pełnej rangi, wynosi zero. Wynika to z faktu, że funkcja wyznaczająca jest ciągła we wpisach macierzy, a rozkład normalny jest ciągłym rozkładem, który przypisuje zerowe prawdopodobieństwo pojedynczemu punktowi. Prawdopodobieństwo uszkodzenia rangi X ( α ) jest dodatnie, jeśli sparametryzowano ją w sposób patologiczny ( np. Α α α αX(α) X(α) .⎛⎝⎜ααααrandomeffect⎞⎠⎟
Więc rozwiązanie twojego pytania jest również dość proste, po prostu zaburzasz swoją macierz projektową (zaburza tylko część z efektem stałym) i używasz zaburzonej macierzy (która jest pełna ranga), aby przeprowadzić wszystkie pochodne. O ile twój model nie ma skomplikowanych hierarchii lub sam X nie jest prawie osobliwy, nie widzę poważnego problemu, gdy weźmiesz ϵ → 0 w wyniku końcowym, ponieważ funkcja wyznacznika jest ciągła i możemy wziąć limit wewnątrz funkcji wyznacznika. L iXϵ(α)=X(α)+ϵ(I000) X ϵ→0 . W formie perturbacji odwrotność X ϵ można uzyskać według twierdzenia Shermana-Morrisiona-Woodbury'ego. A wyznacznik macierzyI+Xpodano w standardowej książce algebry liniowej, takiej jak [Horn & Johnson]. Oczywiście możemy zapisać wyznacznik w kategoriach każdego wpisu macierzy, ale zaburzenie jest zawsze preferowane [Horn & Johnson].limϵ→0|Xϵ|=|limϵ→0Xϵ| Xϵ I+X
(2) Jak powinniśmy radzić sobie z uciążliwymi parametrami w modelu?■
Jak widzisz, aby poradzić sobie z częścią efektu losowego w modelu, powinniśmy traktować ją jako rodzaj „uciążliwego parametru”. Problem polega na tym: czy RMLE jest najbardziej odpowiednim sposobem na wyeliminowanie uciążliwego parametru? Nawet w modelach GLM i efektach mieszanych RMLE nie jest jedynym wyborem. [Basu] wskazał, że istnieje wiele innych sposobów eliminacji parametrów przy ustalaniu oszacowania. Dzisiaj ludzie wybierają między RMLE a modelowaniem bayesowskim, ponieważ odpowiadają one dwóm popularnym rozwiązaniom komputerowym: odpowiednio EM i MCMC.
Moim zdaniem zdecydowanie bardziej odpowiednie jest wprowadzenie ołtarza w sytuacji wadliwej rangi w części ze stałym efektem. Możesz też sparametryzować swój model, aby uzyskać pełną rangę.
Ponadto, jeśli twój ustalony efekt nie ma pełnej rangi, możesz martwić się o źle określoną strukturę kowariancji, ponieważ stopnie swobody w ustalonych efektach powinny przejść do części błędu. Aby zobaczyć ten punkt jaśniej, może warto rozważyć również MLE (LSE) dla GLS (General najmniej gdzie Σ jest struktura kowariancji warunek błędu, w przypadku, gdy X ( α ) nie jest pełnej rangi.β^=(XΣ−1X′)−1Σ−1y Σ X(α)
(3) Dalsze komentarze■
Problem nie polega na tym, jak zmodyfikujesz RMLE, aby działał w przypadku, gdy część matrycy o ustalonym efekcie nie ma pełnej rangi; problemem jest to, że w takim przypadku sam model może być problematyczny, jeśli przypadek niepełnej rangi ma dodatnie prawdopodobieństwo.
Jednym z istotnych przypadków, z którymi się spotkałem, jest to, że w przypadku przestrzennym ludzie mogą chcieć zmniejszyć rangę części o stałym efekcie ze względu na względy obliczeniowe [Wikle].
Nie widziałem żadnego „interesującego naukowo” przypadku w takiej sytuacji, czy mógłbyś wskazać literaturę, w której sprawa nie w pełni rangi budzi poważne obawy? Chciałbym wiedzieć i dyskutować dalej, dzięki.
Odniesienie■
[Rao i Mitra] Rao, Calyampudi Radhakrishna i Sujit Kumar Mitra. Uogólniona odwrotność macierzy i jej zastosowania. Vol. 7. New York: Wiley, 1971.
[Basu] Basu, Debabrata. „W sprawie eliminacji uciążliwych parametrów”. Journal of American Statistics Association 72.358 (1977): 355-366.
[Horn & Johnson] Horn, Roger A. i Charles R. Johnson. Analiza macierzowa. Prasa uniwersytecka Cambridge, 2012.
[Wikle] Wikle, Christopher K. „Reprezentacje niskiej rangi dla procesów przestrzennych”. Handbook of Spatial Statistics (2010): 107-118.
źródło