Rozważ losową zmienną Bernoulliego z parametrem (prawdopodobieństwo sukcesu). Funkcja prawdopodobieństwa i informacje Fishera (a macierz) to:
Rozważmy teraz wersję „o zbyt dużej parametryzacji” z dwoma parametrami: prawdopodobieństwo sukcesu i prawdopodobieństwo niepowodzenia . (Należy zauważyć, że , a to ograniczenie oznacza, że jeden z parametrów jest zbędny.) W tym przypadku funkcja prawdopodobieństwa i macierz informacji Fishera (FIM) to:
Zauważ, że wyznaczniki tych dwóch FIM-ów są identyczne. Ponadto ta właściwość rozciąga się na bardziej ogólny przypadek modeli jakościowych (tj. Więcej niż dwa stany). Wydaje się, że obejmuje również logarytmiczne modele z różnymi podzbiorami parametrów ograniczonymi do zera; w tym przypadku dodatkowy „redundantny” parametr odpowiada funkcji podziału logu, a równoważność dwóch wyznaczników FIM można wykazać na podstawie uzupełnienia Schur większego FIM. (W rzeczywistości dla modeli logarytmiczno-liniowych mniejszy FIM jest tylko uzupełnieniem Schur większego FIM.)
Czy ktoś może wyjaśnić, czy ta właściwość rozciąga się na większy zestaw modeli parametrycznych (np. Na wszystkie rodziny wykładnicze), umożliwiając wyprowadzenie wyznaczników FIM na podstawie takiego „rozszerzonego” zestawu parametrów? Tj. Zakładamy dowolny model statystyczny z parametrami, które leżą na wymiarowym kolektorze osadzonym w przestrzeni . Teraz, jeśli rozszerzymy zestaw parametrów, aby obejmował jeszcze jeden wymiar (który jest całkowicie ograniczony w oparciu o inne) i obliczymy te parametry na podstawie FIM , zawsze otrzymamy tę samą determinantę, jak ta oparta na oryginale (niezależne) parametry? W jaki sposób te dwa FIM są powiązane?
Powód, dla którego zadaję to pytanie, jest taki, że FIM z dodatkowym parametrem często wydaje się prostszy. Moja pierwsza myśl jest taka, że to nie powinno działać w ogóle. FIM polega na obliczeniu częściowych pochodnych prawdopodobieństwa logarytmu względem każdego parametru. Te częściowe pochodne zakładają, że podczas gdy parametr, o którym mowa, zmienia się, wszystkie inne parametry pozostają stałe, co nie jest prawdą, gdy uwzględnimy parametr dodatkowy (ograniczony). W tym przypadku wydaje mi się, że częściowe pochodne nie są już ważne, ponieważ nie możemy założyć, że pozostałe parametry są stałe; Muszę jednak znaleźć dowody, że jest to problem. (Jeśli pochodne częściowe są problematyczne w przypadkach o parametrach zależnych, są to pochodne ogółempotrzebujesz zamiast tego? Nie widziałem jeszcze przykładu obliczania FIM z całkowitymi pochodnymi, ale może to jest rozwiązanie ...)
Jedyny przykład, jaki mogłem znaleźć w Internecie, który oblicza FIM na podstawie takiego „rozszerzonego” zestawu parametrów, jest następujący: te uwagi zawierają przykład rozkładu kategorycznego, obliczając jak zwykle wymagane częściowe pochodne (tj. Jakby każdy parametr był niezależny , mimo że wśród parametrów występuje ograniczenie).
źródło
Odpowiedzi:
Dla normalnego macierz informacyjna to Dla zakrzywionego normalnegoZatem twoja obserwacja, że wyznaczniki są równe, nie jest uniwersalna, ale to nie jest cała historia.X∼ N.( μ ,σ2))
Ogólnie rzecz biorąc, jeśli jest matrycą informacyjną w ramach reparametryzacji , to nietrudno to dostrzec matryca informacji dla oryginalnych parametrów to gdzie jest jakobianem transformacji .jasol
Na przykład Bernoulliego i . Jakobian to a zatem(θ0,θ1) = ( p , 1 - p ) sol( p ) = ( p , 1 - p ) ( 1 , - 1)′
W przypadku normalnego zakrzywionego przykładu,
Myślę, że teraz możesz łatwo powiązać wyznaczniki.
Dalsze działania po komentarzu
Jeśli dobrze cię zrozumiałem, FIM jest ważny, pod warunkiem, że rozszerzysz parametry w znaczący sposób: prawdopodobieństwo przy nowej parametryzacji powinno być prawidłową gęstością. Dlatego nazwałem przykład Bernoulliego niefortunnym.
Myślę, że podany link ma poważną wadę w wyprowadzeniu FIM dla zmiennych kategorialnych, ponieważ mamy i . Oczekiwanie na ujemny Hesjan daje , ale nie dla kowariancji wektorów punktacji. Jeśli zaniedbasz ograniczenia, równość macierzy informacji nie będzie obowiązywać.mi(x2)ja) =θja( 1 -θja) ≠θja mi(xjaxjot) =θjaθjot≠ 0 d i a g {1 /θja}
źródło
Wydaje się, że wynik dotyczy określonego rodzaju relacji między parametrami.
Nie domagając się pełnej ogólności dla poniższych wyników, trzymam się przypadku „jeden do dwóch parametrów”. Oznaczenia ukrytą równanie wyraża związek, który musi posiadać między dwoma parametrami. Wtedy „poprawne rozszerzone”, „dwuparametrowe” prawdopodobieństwo dziennika (nie to, co oblicza OP - tam dotrzemy)sol(θ0,θ1) = 0
Używając indeksów dolnych do oznaczania pochodnych w odniesieniu do parametrów (jeden pierwszy indeks dolny, dwa drugi indeks dolny), wyznacznikiem Heskiego prawidłowego rozszerzonego prawdopodobieństwa logarytmicznego będzie
Co zamiast tego robi OP?
Uważa błędne prawdopodobieństwo „ignorując” relację między dwoma parametrami i nie biorąc pod uwagę ograniczenia . Następnie przechodzi do różnicowania i osiągaL.∗(θ0,θ1) sol(θ0,θ1)
Oczywiste jest, że zasadniczo nie jest równe .( 2 ) ( 1 )
Ale jeśli , tosol00=sol11=sol00= 0
Jeśli więc relacja między parametrem faktycznym a parametrem redundantnym jest taka, że wszystkie częściowe pochodne funkcji niejawnej, która je łączy, są zerowe , wówczas podejście, które jest zasadniczo błędne, kończy się „poprawnością”.
W przypadku Bernoulliego rzeczywiście mamy
DODATEKn
Aby odpowiedzieć na pytanie @ Khashaa i pokazać tutaj mechanikę, rozważamy prawdopodobieństwo określone za pomocą parametru redundantnego, ale także pod ograniczeniem, które łączy redundantny parametr z prawdziwym. To, co robimy z prawdopodobieństwami logarytmicznymi, to maksymalizowanie ich - tutaj mamy przypadek ograniczonej maksymalizacji. Załóżmy próbkę o rozmiarze :
Ten problem ma Langrangeana (co nieformalnie nazwałem powyżej „poprawnym rozszerzonym prawdopodobieństwem”),
Warunki pierwszego rzędu dla maksimum to
dla którego uzyskujemy relację
używając ograniczenia, na mocy którego powyższe są poprawne, otrzymujemyθ1= 1 -θ0
tak jak powinniśmy.
Ponadto, ponieważ ograniczenie jest liniowe we wszystkich parametrach, jego drugie pochodne będą wynosić zero. Odzwierciedla to fakt, że w pierwszych pochodnych lagrangeanu mnożnik „stoi sam” i zostanie wyeliminowany, gdy weźmiemy drugie pochodne lagrangeanu. Co z kolei doprowadzi nas do Heskiego, którego wyznacznik będzie równy (jednowymiarowej) drugiej pochodnej pierwotnego prawdopodobieństwa logarytmu jednoparametrowego, po nałożeniu również ograniczenia (co robi OP). Zatem przyjęcie ujemnej wartości oczekiwanej w obu przypadkach nie zmienia tej matematycznej równoważności i dochodzimy do relacji „jednowymiarowa informacja Fishera = wyznacznik dwuwymiarowej informacji Fishera”. Terazλ biorąc pod uwagę, że ograniczenie jest liniowe we wszystkich parametrach, OP uzyskuje ten sam wynik (na poziomie drugiej pochodnej) bez wprowadzania ograniczenia z mnożnikiem w funkcji, która ma zostać zmaksymalizowana, ponieważ na drugim poziomie pochodnej obecność / działanie ograniczenie w takim przypadku znika.
Wszystko to dotyczy rachunku różniczkowego, a nie statystycznego.
źródło