Oszacowanie parametru rozkładu jednolitego: niewłaściwy wcześniej?

10

Mamy N próbek, , z jednolitego rozkładu [0, \ theta], gdzie \ theta jest nieznany. Oszacuj \ theta na podstawie danych.Xi[0,θ]θθ

Tak więc zasada Bayesa ...

f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)

a prawdopodobieństwo wynosi:

f(Xi|θ)=i=1N1θ (edytuj: kiedy 0Xiθ dla wszystkich i , a 0 w przeciwnym razie - dzięki whuber)

ale bez żadnych innych informacji o θ , wydaje się, że przeor powinien być proporcjonalny do 1 (tj. jednolity) lub do 1L (Jeffreys Prior?) w [0,] ale wtedy moje całki nie nie są zbieżne i nie jestem pewien, jak postępować. Jakieś pomysły?

Będzie
źródło
2
Twoje prawdopodobieństwo jest nieprawidłowe: wyniesie zero, gdy będzie mniejsze niż największy . θXi
whuber
Czy możesz pokazać, jakie całki bierzesz?
Tak, więc chyba nie wiem, jak radzić sobie z niewłaściwym przeorem. Np. Chcę napisaćf[Xi]=Θf(Xi|θ)f(θ)dθ
Czy
1
Dla niepoprawnego wcześniejszego, = = a dla wcześniejszego podobnie otrzymujeszPonieważ prawie na pewno, jest pewne, że całki się zbiegną. f[Xi]=Θf(Xi|θ)f(θ)dθmax(Xi)θNdθmax(Xi)1N/(N1)f(θ)1/θmax(Xi)N/N.maxXi>0
whuber
1
Odniesieniem do Bernardo jest Pareto - patrz katalog nieinformacyjnych priorów .
Stéphane Laurent,

Odpowiedzi:

4

Wywołało to interesującą debatę, ale zauważ, że tak naprawdę nie ma to większego znaczenia w kwestii zainteresowania. Osobiście uważam, że ponieważ jest parametrem skali, argument grupy transformacji jest odpowiedni, co prowadzi do wcześniejszegoθ

p(θ|I)=θ1log(UL)θ1L<θ<U

Rozkład ten ma tę samą formę przy zmianie skali problemu (prawdopodobieństwo również pozostaje „niezmienne” przy zmianie skali). Jądro tego przedniego, można uzyskać, rozwiązując równanie funkcjonalne . Wartości zależą od problemu i naprawdę mają znaczenie tylko wtedy, gdy wielkość próbki jest bardzo mała (jak 1 lub 2). Tylne to ścięte pareto, podane przez:f(y)=y1af(ay)=f(y)L,U

p(θ|DI)=NθN1(L)NUNL<θ<UwhereL=max(L,X(N))
Gdzie jest n-tym statystyka zamówień lub maksymalna wartość próbki. Otrzymujemy tylną średnią z Jeśli ustaw i , otrzymamy prostsze wyrażenie .X(N)
E(θ|DI)=N((L)1NU1N)(N1)((L)NUN)=NN1L(1[LU]N11[LU]N)
UL0E(θ|DI)=NN1X(N)

Ale teraz załóżmy, że używamy bardziej ogólnego przeora, podanego przez (zwróć uwagę, że utrzymujemy granice aby upewnić się, że wszystko jest w porządku - nie ma wtedy pojedynczej matematyki ). Tylny jest wtedy taki sam jak powyżej, ale z zastąpiony przez - pod warunkiem, że . Powtarzając powyższe obliczenia, mamy uproszczoną średnią tylnąp(θ|cI)θc1L,UNc+Nc+N0

E(θ|DI)=N+cN+c1X(N)

Zatem jednolity przed ( ) da oszacowanie pod warunkiem, że (średnia jest nieskończona dla ). To pokazuje, że tutaj debata przypomina trochę, czy użyć czy jako dzielnika w oszacowaniu wariancji.c=1N1N2X(N)N2N=2NN1

Jednym argumentem przeciwko stosowaniu niewłaściwego munduru wcześniej w tym przypadku jest to, że tył jest niewłaściwy, gdy , ponieważ jest proporcjonalny do . Ale to ma znaczenie tylko wtedy, gdy lub jest bardzo małe.N=1θ1N=1

prawdopodobieństwo prawdopodobieństwa
źródło
1

Ponieważ celem tutaj jest prawdopodobnie uzyskanie pewnego ważnego i użytecznego oszacowania , wcześniejszy rozkład powinien być zgodny ze specyfikacją rozkładu populacji, z której pochodzi próbka. Nie oznacza to w żaden sposób, że „obliczamy” wcześniejsze użycie samej próbki - to unieważniłoby ważność całej procedury. Wiemy, że populacja, z której pochodzi próbka, jest populacją iid jednolitych zmiennych losowych, z których każda mieści się w . Jest to przyjęte założenie i jest częścią wcześniejszych informacji, które posiadamy (i nie ma to nic wspólnego z próbką , tj. Z konkretną realizacją podzbioru tych zmiennych losowych).θ[0,θ]

Załóżmy teraz, że ta populacja składa się z zmiennych losowych (podczas gdy nasza próbka składa się z realizacji zmiennych losowych). Utrzymane założenie mówi nam, że mn<mn

maxi=1,...,n{Xi}maxj=1,...,m{Xj}θ

dla zwartości . Następnie mamy który można również zapisać maxi=1,...,n{Xi}XθX

θ=cXc1

Funkcja gęstości z IID Jednolity RV uszeregowanych jest maxN[0,θ]

fX(x)=N(x)N1θN

dla wsparcia i zero w innym miejscu. Następnie, używając i stosując formułę zmiany zmiennej, otrzymujemy wcześniejszy rozkład dla który jest zgodny z zachowanym założeniem: [0,θ]θ=cXθ

fp(θ)=N(θc)N1θN1c=NcNθ1θ[x,]

co może być niewłaściwe, jeśli nie podamy odpowiednio stałej . Ale naszym interesem jest posiadanie właściwego tylnego dla , a także, nie chcemy ograniczać możliwych wartości (poza ograniczeniem wynikającym z utrzymanego założenia). Więc pozostawiamy nieokreślony. Następnie piszemy a posterior jestcθθc
X={x1,..,xn}

f(θX)θNNcNθ1f(θX)=ANcNθ(N+1)

dla pewnej stałej normalizującej A. Chcemy

Sθf(θX)dθ=1xANcNθ(N+1)dθ=1

ANcN1NθN|x=1A=(cx)N

Wstawianie do tylnego

f(θX)=(cx)NNcNθ(N+1)=N(x)Nθ(N+1)

Należy zauważyć, że nieokreślona stała wcześniejszej dystrybucji została dogodnie anulowana.c

Plakat tylny podsumowuje wszystkie informacje, które konkretna próbka może nam przekazać, dotyczące wartości . Jeśli chcemy uzyskać określoną wartość dla , możemy łatwo obliczyć oczekiwaną wartość tylnej, θθ

E(θX)=xθN(x)Nθ(N+1)dθ=NN1(x)NθN+1|x=NN1x

Czy w tym wyniku jest jakaś intuicja? Cóż, wraz ze wzrostem liczby , tym bardziej prawdopodobne jest, że maksymalna realizacja wśród nich będzie coraz bliżej ich górnej granicy, - co dokładnie odzwierciedla tylna średnia wartość : jeśli, powiedzmy , , ale jeśli . To pokazuje, że nasza taktyka dotycząca wyboru przełożonego była rozsądna i zgodna z danym problemem, ale w pewnym sensie niekoniecznie „optymalna”.XθθN=2E(θX)=2xN=10E(θX)=109x

Alecos Papadopoulos
źródło
1
Bazowanie na danych wcześniej brzmi dla mnie podejrzanie. Jak usprawiedliwiacie to podejście?
whuber
2
Nie mam nic przeciwko temu, że twój przeor nie jest „najlepszy”. Gdzie powiedziałem coś takiego? Próbuję zrozumieć twoje podejście. Nie rozumiem jeszcze tej równości. Jeśli jest stałe w równaniu , czy to oznacza, że ​​zarówno i są nielosowe? Nawiasem mówiąc, nie używasz faktu, że w wcześniejszego, prawda? (cc @whuber)cθ=cXXθc1
Stéphane Laurent,
1
A wsparcie twojego wcześniejszego zależy od danych? ( )θ[x,[
Stéphane Laurent,
3
Uprzednie uzależnienie (nawet jeśli jest to tylko wsparcie) od danych brzmi źle: nie można poznać maksymalnej próbki przed wygenerowaniem próbki . Ponadto twierdzisz, że jest prawie pewną równością, przy czym zarówno i losowe (stąd korelacja ). Ale to sugeruje, że rozkład tylny (który jest rozkładem warunkowym dla próbki) jest masą Diraca przy . Jest to sprzeczne z twoją pochodną rozkładu tylnego. ... (nie pozostało żadnych znaków ...)θ=cXθX1θθcx
Stéphane Laurent,
1
Rozkład tylny to Dirac przy oznacza, że to . Twierdzenie Bayesa nie jest przyczyną. Wszystko niszczysz, zakładając, że . To implikuje , więc rozkład warunkowy dany jest masą Diraca w , podczas gdy pierwotne założenie jest takie, że ten rozkład jest rozkładem równomiernym na . θcxθ cxθ=cXX=θ/cXθθ/c(0,θ)
Stéphane Laurent,
0

Twierdzenie o jednolitej wcześniejszej dystrybucji (przypadek przedziałowy):

„Jeśli całość twoich informacji o zewnętrznych w stosunku do danych jest przechwycona przez pojedynczą propozycję wtedy Twoja jedyna możliwa logicznie spójna wcześniejsza specyfikacja to θD

B={{Possible values for θ}={the interval (a,b)},a<b}
f(θ)=Uniform(a,b)

Zatem wcześniejsza specyfikacja powinna odpowiadać przeorowi Jeffreya, jeśli naprawdę wierzysz w powyższe twierdzenie. ”

Nie stanowi części twierdzenia o jednolitej wcześniejszej dystrybucji:

Alternatywnie możesz podać swój wcześniejszy rozkład jako rozkład Pareto, który jest rozkładem sprzężonym dla munduru, wiedząc, że twój rozkład tylny będzie musiał być innym rozkładem jednolitym przez sprzężenie. Jeśli jednak użyjesz dystrybucji Pareto, będziesz musiał w jakiś sposób określić parametry dystrybucji Pareto.f(θ)


źródło
4
Najpierw mówisz, że „jedyną możliwą logicznie wewnętrznie spójną” odpowiedzią jest jednolity rozkład, a następnie przystępujesz do proponowania alternatywy. To brzmi dla mnie nielogicznie i niekonsekwentnie :-).
whuber
2
Nie mogę się zgodzić Na przykład jest również zbioremKiedy plik PDF z to dla . Ale zgodnie z „twierdzeniem” którego pdf to w tym przedziale. Krótko mówiąc, chociaż twierdzenie nie zależy od sposobu parametryzacji problemu, wniosek „twierdzenia” zależy od parametryzacji, stąd jest niejednoznaczny. B{θ|θ3(a3,b3)}.ΘUniform(a,b),Ψ=Θ31/(3ψ2/3(ba))a3<ψ<b3ΨUniform(a3,b3)1/(b3a3)
whuber
2
BabakP: Jak można powiedzieć, że to twierdzenie ? Twierdzenie to twierdzenie matematyczne z matematycznym dowodem. To „twierdzenie” byłoby lepiej nazwane „zasadą”, ale nie jest rozsądne, ponieważ jest sprzeczne, jak pokazuje @whuber.
Stéphane Laurent,
2
Dzięki za referencję BabakP. Chciałbym zaznaczyć, że „szkic próbny” jest fałszywy. Draper dzieli przedział na skończoną liczbę równomiernie rozmieszczonych wartości i „przechodzi do granicy”. Każdy może podzielić przedział na wartości w odstępach, aby przybliżyć dowolną gęstość, którą lubią i podobnie przekroczyć granicę, tworząc całkowicie dowolne „możliwe tylko logicznie wewnętrznie spójne wcześniejsze specyfikacje”. Tego rodzaju rzeczy - a mianowicie używanie złej matematyki w celu wykazania, że ​​nie-Bayesianie są nielogiczni - nadają analizie Bayesian (niezasłużenie) złe imię. (cc @ Stéphane.)
whuber
1
@ Stéphane Proszę wybaczyć moją niewrażliwość ( insensibilité ) - Podziwiam twoją umiejętność interakcji tutaj w drugim języku i nie używam świadomie niejasnych terminów! Bogus to przymiotnik wywodzący się z 200-letniego amerykańskiego slangu odnoszącego się do maszyny do fałszowania pieniędzy. W tym przypadku jest to matematyczna maszyna do twierdzeń dotyczących podrabiania :-).
whuber