Determinator macierzy informacji Fishera dla modelu nadparametryzowanego

10

Rozważ losową zmienną Bernoulliego X{0,1} z parametrem θ(prawdopodobieństwo sukcesu). Funkcja prawdopodobieństwa i informacje Fishera (a1×1 macierz) to:

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Rozważmy teraz wersję „o zbyt dużej parametryzacji” z dwoma parametrami: prawdopodobieństwo sukcesu θ1 i prawdopodobieństwo niepowodzenia θ0 . (Należy zauważyć, że θ1+θ0=1 , a to ograniczenie oznacza, że ​​jeden z parametrów jest zbędny.) W tym przypadku funkcja prawdopodobieństwa i macierz informacji Fishera (FIM) to:

L.2)(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01-Xja2)(θ1,θ0)=(1θ1001θ0)detja2)(θ)=1θ1θ0=1θ1(1-θ1)

Zauważ, że wyznaczniki tych dwóch FIM-ów są identyczne. Ponadto ta właściwość rozciąga się na bardziej ogólny przypadek modeli jakościowych (tj. Więcej niż dwa stany). Wydaje się, że obejmuje również logarytmiczne modele z różnymi podzbiorami parametrów ograniczonymi do zera; w tym przypadku dodatkowy „redundantny” parametr odpowiada funkcji podziału logu, a równoważność dwóch wyznaczników FIM można wykazać na podstawie uzupełnienia Schur większego FIM. (W rzeczywistości dla modeli logarytmiczno-liniowych mniejszy FIM jest tylko uzupełnieniem Schur większego FIM.)

Czy ktoś może wyjaśnić, czy ta właściwość rozciąga się na większy zestaw modeli parametrycznych (np. Na wszystkie rodziny wykładnicze), umożliwiając wyprowadzenie wyznaczników FIM na podstawie takiego „rozszerzonego” zestawu parametrów? Tj. Zakładamy dowolny model statystyczny z parametrami, które leżą na wymiarowym kolektorze osadzonym w przestrzeni . Teraz, jeśli rozszerzymy zestaw parametrów, aby obejmował jeszcze jeden wymiar (który jest całkowicie ograniczony w oparciu o inne) i obliczymy te parametry na podstawie FIM , zawsze otrzymamy tę samą determinantę, jak ta oparta na oryginale (niezależne) parametry? W jaki sposób te dwa FIM są powiązane?nn(n+1)(n+1)n

Powód, dla którego zadaję to pytanie, jest taki, że FIM z dodatkowym parametrem często wydaje się prostszy. Moja pierwsza myśl jest taka, że ​​to nie powinno działać w ogóle. FIM polega na obliczeniu częściowych pochodnych prawdopodobieństwa logarytmu względem każdego parametru. Te częściowe pochodne zakładają, że podczas gdy parametr, o którym mowa, zmienia się, wszystkie inne parametry pozostają stałe, co nie jest prawdą, gdy uwzględnimy parametr dodatkowy (ograniczony). W tym przypadku wydaje mi się, że częściowe pochodne nie są już ważne, ponieważ nie możemy założyć, że pozostałe parametry są stałe; Muszę jednak znaleźć dowody, że jest to problem. (Jeśli pochodne częściowe są problematyczne w przypadkach o parametrach zależnych, są to pochodne ogółem(n+1)×(n+1)potrzebujesz zamiast tego? Nie widziałem jeszcze przykładu obliczania FIM z całkowitymi pochodnymi, ale może to jest rozwiązanie ...)

Jedyny przykład, jaki mogłem znaleźć w Internecie, który oblicza FIM na podstawie takiego „rozszerzonego” zestawu parametrów, jest następujący: te uwagi zawierają przykład rozkładu kategorycznego, obliczając jak zwykle wymagane częściowe pochodne (tj. Jakby każdy parametr był niezależny , mimo że wśród parametrów występuje ograniczenie).

Tyler Streeter
źródło
1
Dobre pytanie! Myślę, że dwuparametrowa specyfikacja losowej zmiennej Bernoulli jest raczej niefortunnym przykładem, ponieważ bez ograniczenia nie musi już być gęstością. Czy potrafisz na przykład odtworzyć obserwację dla zakrzywionej rodziny wykładniczej? p(X|θ1,θ0)=θ1Xθ01-X
Khashaa
@Khashaa Zakładam, że ograniczenie ma zastosowanie w przypadku dwuparametrowym (ten, o którym wspomniałeś), więc funkcja wiarygodności nadal będzie miała prawidłową gęstość. Tak, mogę odtworzyć tę obserwację, np. Dla modeli logarytmiczno-liniowych z różnymi podzbiorami parametrów ograniczonymi do zera; w tym przypadku parametr „redundantny” odpowiada funkcji partycji dziennika. θ1+θ2=1
Tyler Streeter
1
Co powiesz na ? N.(μ,μ2))
Khashaa

Odpowiedzi:

4

Dla normalnego macierz informacyjna to Dla zakrzywionego normalnegoZatem twoja obserwacja, że ​​wyznaczniki są równe, nie jest uniwersalna, ale to nie jest cała historia.XN.(μ,σ2))

ja1=(1σ2)0012)σ4)
XN.(μ,μ2))
ja2)=3)μ2).

Ogólnie rzecz biorąc, jeśli jest matrycą informacyjną w ramach reparametryzacji , to nietrudno to dostrzec matryca informacji dla oryginalnych parametrów to gdzie jest jakobianem transformacji .jasol

sol(θ)=(sol1(θ),...,solk(θ)),
ja(θ)=soljasol(sol(θ))sol
solsol=sol(θ)

Na przykład Bernoulliego i . Jakobian to a zatem (θ0,θ1)=(p,1-p)sol(p)=(p,1-p)(1,-1)

ja(p)=(1-1)(1p0011-p)(1-1)=1p(1-p)

W przypadku normalnego zakrzywionego przykładu,

ja2)=(12)μ)(1μ2)0012)μ4)(12)μ)=3)μ2).

Myślę, że teraz możesz łatwo powiązać wyznaczniki.

Dalsze działania po komentarzu

Jeśli dobrze cię zrozumiałem, FIM jest ważny, pod warunkiem, że rozszerzysz parametry w znaczący sposób: prawdopodobieństwo przy nowej parametryzacji powinno być prawidłową gęstością. Dlatego nazwałem przykład Bernoulliego niefortunnym.

Myślę, że podany link ma poważną wadę w wyprowadzeniu FIM dla zmiennych kategorialnych, ponieważ mamy i . Oczekiwanie na ujemny Hesjan daje , ale nie dla kowariancji wektorów punktacji. Jeśli zaniedbasz ograniczenia, równość macierzy informacji nie będzie obowiązywać. mi(xja2))=θja(1-θja)θjami(xjaxjot)=θjaθjot0rejazasol{1/θja}

Khashaa
źródło
Dziękujemy za wspomnienie o metodzie transformacji jakobianów i za proste, jasne przykłady. Czy możesz (lub ktokolwiek inny) skomentować następującą kwestię, która wciąż mnie dotyczy: rozszerzając zestaw parametrów o jeden wymiar, tak jak robimy tutaj, wprowadzamy ograniczenie między parametrami, tak że wszelkie częściowe pochodne (zgodnie z wymaganiami FIM) powinien być nieprawidłowy, ponieważ teraz, kiedy zmieniamy jeden parametr, pozostałe nie są już stałe. Czy FIM jest nawet ważny dla rozszerzonego zestawu parametrów, biorąc pod uwagę, że częściowe pochodne są nieważne z powodu dodatkowego ograniczenia?
Tyler Streeter,
@TylerStreeter Zaktualizowałem moją odpowiedź, aby rozwiązać Twój problem.
Khashaa,
3

Wydaje się, że wynik dotyczy określonego rodzaju relacji między parametrami.

Nie domagając się pełnej ogólności dla poniższych wyników, trzymam się przypadku „jeden do dwóch parametrów”. Oznaczenia ukrytą równanie wyraża związek, który musi posiadać między dwoma parametrami. Wtedy „poprawne rozszerzone”, „dwuparametrowe” prawdopodobieństwo dziennika (nie to, co oblicza OP - tam dotrzemy)sol(θ0,θ1)=0

L.mi=L.(θ0,θ1)+λsol(θ0,θ1)
jest równoważne prawdziwemu prawdopodobieństwu , ponieważ , ( jest mnożnik) i możemy traktować dwa parametry jako niezależne, podczas gdy my różnicujemy.L.sol(θ0,θ1)=0λ

Używając indeksów dolnych do oznaczania pochodnych w odniesieniu do parametrów (jeden pierwszy indeks dolny, dwa drugi indeks dolny), wyznacznikiem Heskiego prawidłowego rozszerzonego prawdopodobieństwa logarytmicznego będzie

(1)reH.(L.mi)=[L.00+λsol00][L.11+λsol11]-[L.01+λsol01]2)=reH.(L.)

Co zamiast tego robi OP?

Uważa błędne prawdopodobieństwo „ignorując” relację między dwoma parametrami i nie biorąc pod uwagę ograniczenia . Następnie przechodzi do różnicowania i osiągaL.(θ0,θ1)sol(θ0,θ1)

(2)reH.(L.)=L.00L.11-[L.01]2)

Oczywiste jest, że zasadniczo nie jest równe .(2))(1)

Ale jeśli , tosol00=sol11=sol00=0

(1)reH.(L.mi)=L.00L.11-[L.01]2)=reH.(L.)=reH.(L.)

Jeśli więc relacja między parametrem faktycznym a parametrem redundantnym jest taka, że ​​wszystkie częściowe pochodne funkcji niejawnej, która je łączy, są zerowe , wówczas podejście, które jest zasadniczo błędne, kończy się „poprawnością”.

W przypadku Bernoulliego rzeczywiście mamy

sol(θ0,θ1)=θ0+θ1-1sol00=sol11=sol01=0

DODATEK
Aby odpowiedzieć na pytanie @ Khashaa i pokazać tutaj mechanikę, rozważamy prawdopodobieństwo określone za pomocą parametru redundantnego, ale także pod ograniczeniem, które łączy redundantny parametr z prawdziwym. To, co robimy z prawdopodobieństwami logarytmicznymi, to maksymalizowanie ich - tutaj mamy przypadek ograniczonej maksymalizacji. Załóżmy próbkę o rozmiarze :n

maxL.n(θ0,θ1)=lnθ0ja=1nxja+(n-ja=1nxja)lnθ1,s.t.θ1=1-θ0

Ten problem ma Langrangeana (co nieformalnie nazwałem powyżej „poprawnym rozszerzonym prawdopodobieństwem”),

L.mi=lnθ0ja=1nxja+(n-ja=1nxja)lnθ1+λ(θ1-1+θ0)

Warunki pierwszego rzędu dla maksimum to

ja=1nxjaθ0+λ=0,n-ja=1nxjaθ1+λ0=0

dla którego uzyskujemy relację

ja=1nxjaθ0=n-ja=1nxjaθ1θ1ja=1nxja=(n-ja=1nxja)θ0

używając ograniczenia, na mocy którego powyższe są poprawne, otrzymujemyθ1=1-θ0

(1-θ0)ja=1nxja=(n-ja=1nxja)θ0

ja=1nxja=nθ0θ^0=1nja=1nxja

tak jak powinniśmy.

Ponadto, ponieważ ograniczenie jest liniowe we wszystkich parametrach, jego drugie pochodne będą wynosić zero. Odzwierciedla to fakt, że w pierwszych pochodnych lagrangeanu mnożnik „stoi sam” i zostanie wyeliminowany, gdy weźmiemy drugie pochodne lagrangeanu. Co z kolei doprowadzi nas do Heskiego, którego wyznacznik będzie równy (jednowymiarowej) drugiej pochodnej pierwotnego prawdopodobieństwa logarytmu jednoparametrowego, po nałożeniu również ograniczenia (co robi OP). Zatem przyjęcie ujemnej wartości oczekiwanej w obu przypadkach nie zmienia tej matematycznej równoważności i dochodzimy do relacji „jednowymiarowa informacja Fishera = wyznacznik dwuwymiarowej informacji Fishera”. Terazλbiorąc pod uwagę, że ograniczenie jest liniowe we wszystkich parametrach, OP uzyskuje ten sam wynik (na poziomie drugiej pochodnej) bez wprowadzania ograniczenia z mnożnikiem w funkcji, która ma zostać zmaksymalizowana, ponieważ na drugim poziomie pochodnej obecność / działanie ograniczenie w takim przypadku znika.

Wszystko to dotyczy rachunku różniczkowego, a nie statystycznego.

Alecos Papadopoulos
źródło
Nie mogę podążać za twoją logiką. Czy mógłbyś wyjaśnić, dlaczego podobne do Lagrangeana jest uważane za „poprawne rozszerzone”, „dwuparametrowe” prawdopodobieństwo dziennika? Poza tym Hesjan jest dla mnie całkowicie tajemniczy. Czy obliczasz zaobserwowaną matrycę informacji? L.mi
Khashaa
@ Khashaa Ustalono terminologię, że „Hesjan” jest macierzą drugich pochodnych funkcji wielowymiarowej.
Alecos Papadopoulos
Przydałoby się, aby tutaj downvoters opublikowali odpowiedź - ponieważ konkretny przykład PO istnieje - i wymaga wyjaśnienia.
Alecos Papadopoulos
Przepraszam, jeśli moje pytanie było niejasne. Moje pytanie dotyczyło sposobu, w jaki połączyłeś Hesję z matrycą informacji, ponieważ nie widziałem żadnych oczekiwań, a wynik wydawał się obserwowaną matrycą informacji. Poza tym, czy możesz wyjaśnić, dlaczego ma poprawne prawdopodobieństwo logiczne? Wydaje mi się, że używasz jakiejś opartej na zasadach metody oceny ograniczonego prawdopodobieństwa, ale nie rozumiem, jak to działa. L.mi
Khashaa
@Khashaa Dodałem ekspozycję na przykładzie OP.
Alecos Papadopoulos