Niemożliwy problem z oszacowaniem?

17

Pytanie

Wariancja ujemnego rozkładu dwumianowego (NB) jest zawsze większa niż jego średnia. Gdy średnia próbki jest większa niż jej wariancja, próba dopasowania parametrów NB z maksymalnym prawdopodobieństwem lub oszacowaniem momentu zakończy się niepowodzeniem (nie ma rozwiązania z parametrami skończonymi).

Jednak możliwe jest, że próbka pobrana z rozkładu NB ma wartość większą niż wariancja. Oto powtarzalny przykład w R.

set.seed(167)
x = rnbinom(100, size=3.2, prob=.8);
mean(x) # 0.82
var(x) # 0.8157576

Istnieje niezerowe prawdopodobieństwo, że NB wytworzy próbkę, dla której parametrów nie można oszacować (metodami największego prawdopodobieństwa i momentu).

  1. Czy można podać godne szacunki dla tej próbki?
  2. Co mówi teoria estymacji, gdy estymatory nie są zdefiniowane dla wszystkich próbek?

O odpowiedzi

Odpowiedzi @MarkRobinson i @Yves uświadomiły mi, że parametryzacja jest głównym problemem. Gęstość prawdopodobieństwa NB jest zwykle zapisywana jako

lub jako P(X=k)=Γ(r+k)

P(X=k)=Γ(r+k)Γ(r)k!(1p)rpk
P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.

W ramach pierwszej parametryzacji maksymalne oszacowanie prawdopodobieństwa wynosi ilekroć wariancja próbki jest mniejsza niż średnia, więc nic użytecznego nie można powiedzieć o p . W drugim przypadku jest to ( , ˉ x ) , więc możemy podać rozsądne oszacowanie m . Wreszcie @ MarkRobinson pokazuje, że możemy rozwiązać problem nieskończonych wartości za pomocą r(,0)p(,x¯)m zamiastr.r1+rr

Podsumowując, nie ma nic zasadniczo złego w tym problemie estymacji, z wyjątkiem tego, że nie zawsze można podać sensowne interpretacje i p dla każdej próbki. Szczerze mówiąc, pomysły są zawarte w obu odpowiedziach. Wybrałem ten z @ MarkRobinson jako poprawny dla uzupełnień, które on daje.rp

gui11aume
źródło
Błędne jest stwierdzenie, że w takim przypadku maksymalne prawdopodobieństwo zawodzi. Metody tylko chwilowe mogą napotkać trudności.
Xi'an
@ Xi'an Czy możesz rozwinąć? Prawdopodobieństwo tego przykładu ma maksimum w domenie (patrz w tym na przykład). Czy coś brakuje? W każdym razie, jeśli możesz podać oszacowania ML parametrów dla tego przypadku, zaktualizuję pytanie. (0,)×(0,1)
gui11aume
1
p0rCV<1α=20n=200
@Yves Dzięki za ten inny przykład (o którym nie wiedziałem). Co ludzie robią w tym przypadku?
gui11aume
2
αλ/αθ>0rp/(1p)λ

Odpowiedzi:

11

enter image description hereZasadniczo dla próbki oszacowanie parametru rozmiaru znajduje się na granicy przestrzeni parametrów. Można również rozważyć zmianę parametrów, na przykład d = rozmiar / (rozmiar + 1); gdy rozmiar = 0, d = 0, gdy rozmiar zmierza do nieskończoności, d zbliża się 1. Okazuje się, że dla podanych ustawień parametrów oszacowania wielkości nieskończoności (d bliskie 1) zdarzają się w około 13% przypadków Szacunkowe prawdopodobieństwo profilu skorygowanego Cox-Reida (APL), które jest alternatywą dla oszacowań MLE dla NB (przykład pokazany tutaj) . Oszacowania średniego parametru (lub „prob”) wydają się być prawidłowe (patrz rysunek, niebieskie linie to prawdziwe wartości, czerwona kropka to oszacowanie dla twojego materiału siewnego = 167 próbek). Więcej szczegółów na temat teorii APL znajduje się tutaj .

Tak więc powiedziałbym do 1 .: można uzyskać przyzwoite oszacowania parametrów .. rozmiar = nieskończoność lub dyspersja = 0 jest rozsądnym oszacowaniem biorąc pod uwagę próbkę. Rozważ inną przestrzeń parametrów, a oszacowania będą skończone.

Mark Robinson
źródło
Dziękujemy za dołączenie do strony i udzielenie odpowiedzi na moje pytanie! Szczegółowość prawdopodobieństwa profilu Cox-Reida wygląda bardzo obiecująco.
gui11aume
8

W przykładzie ujemnego dwumianu (NB) prawdopodobieństwo może mieć swoje maksimum dla nieskończonej odległości dla p0rΘ:=(0,1)×(0,)λ>0[p,r]Θp0rrp/(1p)λ

CV<1>0.3α=20n=200

Właściwości ML dotyczą dużej próby: w warunkach prawidłowości wykazano, że istnieje oszacowanie ML, jest ono unikalne i wykazuje tendencję do prawdziwego parametru. Jednak dla danej skończonej wielkości próby oszacowanie ML może nie istnieć w domenie, np. Ponieważ maksimum jest osiągane na granicy. Może także istnieć w domenie, która jest większa niż domena wykorzystywana do maksymalizacji.

αλ/αθ>0GPD(σ,ξ)ξ>0ξ^<0ξ^=0

Ze względu na niezmienność poprzez ponowną parametryzację uważam, że nieskończone parametry mogą mieć sens w niektórych przypadkach.

Yves
źródło