Intuicyjne zrozumienie twierdzenia Halmosa-Savage'a

13

Twierdzenie Halmosa-Savage'a mówi, że dla dominującego modelu statystycznego statystyka jest wystarczający, jeśli (i tylko jeśli) dla wszystkich istnieje wersja pochodnej Radon Nikodym, mierzalna wersja gdzie jest uprzywilejowany środek taki, że do i .(Ω,A,P)T:(Ω,A,P)(Ω,A){PP}TdPdPdPP=i=1Picici>0,i=1ci=1PiP

Próbowałem zrozumieć intuicyjnie, dlaczego to twierdzenie jest prawdziwe, ale nie udało mi się, więc moje pytanie brzmi, czy istnieje intuicyjny sposób zrozumienia tego twierdzenia.

Sebastian
źródło
Myślę, że mam tutaj poprawny link. Sprawdź i usuń, jeśli popełniłem błąd.
gung - Przywróć Monikę
4
Może pomóc czytelnikowi w terminologii, np. Zdefiniować „zdominowane modele statystyczne”, „ pomiar ” i „uprzywilejowane miary?”T
Carl

Odpowiedzi:

7

Techniczny lemat

Nie jestem pewien, czy jest to intuicyjne, ale główny wynik techniczny leżący u podstaw twierdzenia Halmosa-Savage'a jest następujący:

Lemat. Niech będzie miarą -finite na . Załóżmy, że jest zbiorem miar takich, że dla każdego , . Następnie istnieje ciąg nieujemnych liczb i ciąg elementów , taki że i dla każdego .μσ(S,A)(S,A)ννμ{ci}i=1{νi}i=1i=1ci=1νi=1ciνiν

Zostało to zaczerpnięte dosłownie z Twierdzenia A.78 w Schervish's Theory of Statistics (1995) . W tym miejscu przypisuje to Lehmannnowi Testing Statistics Hypotheses (1986) ( link do trzeciej edycji ), w której wynik przypisuje się Halmosowi i Savage'owi (patrz Lemat 7). Innym dobrym odniesieniem są statystyki matematyczne Shao (drugie wydanie, 2003) , gdzie odpowiednie wyniki to Lemma 2.1 i Twierdzenie 2.2.

Powyższy lemat mówi, że jeśli zaczniesz od rodziny miar zdominowanych przez skończoną miarę, to tak naprawdę możesz zastąpić dominującą miarę przez policzalną wypukłą kombinację miar z rodziny. Schervish pisze przed stwierdzeniem Twierdzenia A.78,σ

„W zastosowaniach statystycznych często mamy klasę miar, z których każda jest absolutnie ciągła w odniesieniu do pojedynczej miary skończonej. Byłoby miło, gdyby pojedyncza miara dominująca znajdowała się w klasie oryginalnej lub mogła być zbudowana z klasa. Poniższe twierdzenie rozwiązuje ten problem. ”σ

Konkretny przykład

Załóżmy, że dokonujemy pomiaru wielkości która naszym zdaniem jest równomiernie rozłożona w przedziale dla niektórych nieznanych . W tym problemie statystycznym domyślnie bierzemy pod uwagę zbiór miar prawdopodobieństwa Borela na składający się z równomiernych rozkładów we wszystkich przedziałach postaci . Oznacza to, że jeśli oznacza miarę Lebesgue'a, a dla , oznacza rozkład (tj. X[0,θ]θ>0PR[0,θ]λθ>0PθUniform([0,θ])

Pθ(A)=1θλ(A[0,θ])=A1θ1[0,θ](x)dx
dla każdego Borel ), wtedy mamy po prostu Jest to zbiór rozkładów kandydujących do naszego pomiaru .AR
P={Pθ:θ>0}.
X

Rodzina jest wyraźnie zdominowana przez miarę Lebesgue'a (która jest -finite), więc powyższy lemat (z ) gwarantuje istnienie sekwencji liczb nieujemnych sumujących się do i sekwencja rozkładów jednolitych w takich, że dla każdego . W tym przykładzie możemy jawnie skonstruować takie sekwencje!Pλσ=P{ci}i=11{Qi}i=1P

Pθi=1ciQi
θ>0

Po pierwsze, niech będzie wyliczeniem dodatnich liczb wymiernych ( można to zrobić jawnie ) i niech dla każdego . Następnie pozwól , aby . Twierdzę, że ta kombinacja i działa.(θi)i=1 Q i = P θ i i c i = 2 - ii = 1 c i = 1 { c i } i = 1 { Q i } i = 1Qi=Pθiici=2ii=1ci=1{ci}i=1{Qi}i=1

Aby to zobaczyć, napraw i pozwól, aby był podzbiorem Borela tak aby . Musimy pokazać, że . Ponieważ i każdy zbiór jest nieujemny, wynika z tego, że dla każdego . Ponadto, ponieważ każdy jest dodatni, wynika z tego, że dla każdego . Oznacza to, że dla wszystkich mamy Ponieważ każdyθ>0ARi=1ciQi(A)=0Pθ(A)=0i=1ciQi(A)=0ciQi(A)=0iciQi(A)=0ii

Qi(A)=Pθi(A)=1θiλ(A[0,θi])=0.
θijest dodatni, wynika z tego, że dla każdego .λ(A[0,θi])=0i

Teraz wybierz podciąg z który zbiegnie się do z góry (można to zrobić ponieważ jest gęsty w ). Następnie jako , więc na podstawie ciągłości pomiaru dochodzimy do wniosku, że a więc . To potwierdza roszczenie.{θik}k=1{θi}i=1θQRA[0,θθik]A[0,θ]k

λ(A[0,θ])=limkλ(A[0,θik])=0,
Pθ(A)=0

Tak więc w tym przykładzie byliśmy w stanie wyraźnie skonstruować policzalną wypukłą kombinację miar prawdopodobieństwa z naszej zdominowanej rodziny, która wciąż dominuje całą rodzinę. Powyższy lemat gwarantuje, że można to zrobić dla każdej zdominowanej rodziny (przynajmniej tak długo, jak długo dominującą miarą jest -finite).σ

Twierdzenie Halmosa-Savage'a

Przejdźmy teraz do twierdzenia Halmosa-Savage'a (dla którego użyję nieco innej notacji niż w pytaniu ze względu na osobiste preferencje). Biorąc pod uwagę twierdzenie Halmosa-Savage'a, twierdzenie faktoryzacji Fishera-Neymana jest tylko jednym zastosowaniem lematu Dooba-Dynkina i reguły łańcucha pochodnych Radon-Nikodym!

Twierdzenie Halmosa-Savage'a. Niech będzie dominującym modelem statystycznym (co oznacza, że jest zbiorem miar prawdopodobieństwa na i istnieje -finite miara na taki, że dla wszystkich ). Niech będzie funkcją mierzalną, gdzie jest standardowym Borelem przestrzeń. Zatem następujące są równoważne:(X,B,P)PBσμBPμPPT:(X,B)(T,C)(T,C)

  1. T jest wystarczające dla (co oznacza, że ​​istnieje jądro prawdopodobieństwa tak, że jest wersją dla wszystkich i ).Pr:B×T[0,1]r(B,T)P(BT)BBPP
  2. Istnieje sekwencja liczb nieujemnych, na przykład i sekwencja miar prawdopodobieństwa w takich, że dla wszystkich , gdzie , i dla każdego istnieje -measurable wersja .{ci}i=1i=1ci=1{Pi}i=1PPPPPP=i=1ciPiPPTdP/dP

Dowód. Powyższym lematem możemy natychmiast zastąpić przez dla jakiejś sekwencji liczb nieujemnych i sekwencja miar prawdopodobieństwa w .μP=i=1ciPi{ci}i=1i=1ci=1{Pi}i=1P

(1. implikuje 2.) Załóżmy, że jest wystarczający. Następnie musimy pokazać, że istnieją wersje dp dla wszystkich . Niech będzie jądrem prawdopodobieństwa w twierdzeniu twierdzenia. Dla każdego i mamy Zatem jest wersją dla wszystkich .TTdP/dPPPrAσ(T)BB

P(AB)=i=1ciPi(AB)=i=1ciAPi(BT)dPi=i=1ciAr(B,T)dPi=Ar(B,T)dP.
r(B,T)P(BT)BB

Dla każdego , niech oznacza wersję pochodnej Radon-Nikodym na mierzalnej przestrzeni (więc w szczególności jest mierzalny). Następnie dla wszystkich i mamy Tak więc w rzeczywistości jestPPfPdP/dP(X,σ(T))fPTBBPP

P(B)=XP(BT)dP=Xr(B,T)dP=Xr(B,T)fPdP=XP(BT)fPdP=XEP[1BfPT]dP=BfPdP.
fPT-mierzalna wersja na . Dowodzi to, że pierwszy warunek twierdzenia implikuje drugi.dP/dP(X,B)

(2. implikuje 1.) Załóżmy, że dla każdego można wybrać wersję dla f_P . Dla każdego niech oznacza określoną wersję (np. jest funkcją taką, że to wersja ). Ponieważ jest standardową przestrzenią Borela, możemy wybrać w sposób, który czyni ją jądrem prawdopodobieństwa (patrz np. Twierdzenie B.32 w Teorii statystyki Schervisha (1995)). Pokażemy, żeTfPdP/dPPPBBr(B,t)P(BT=t)r(B,t)r(B,T)P(BT)(T,C)rr(B,T)jest wersją dla dowolnego i dowolnego . Tak więc niech i . Następnie dla wszystkich mamy To pokazuje, że jest wersją dla dowolnego i dowolnego , a dowodem jest gotowy.P(BT)PPBBAσ(T)BBPP

P(AB)=A1BfPdP=AEP[1BfPT]dP=AP(BT)fPdP=Ar(B,T)fPdP=Ar(B,T)dP.
r(B,T)P(BT)PPBB

Podsumowanie. Ważnym rezultatem technicznym leżącym u podstaw twierdzenia Halmosa-Savage'a jest to, że dominująca rodzina miar prawdopodobieństwa jest faktycznie zdominowana przez policzalną wypukłą kombinację miar prawdopodobieństwa z tej rodziny. Biorąc pod uwagę ten wynik, reszta twierdzenia Halmosa-Savage'a to głównie manipulacje podstawowymi właściwościami pochodnych Radon-Nikodym i warunkowe oczekiwania.

Artem Mavrin
źródło