Jak obliczyć poziom ufności dla rozkładu Poissona?

32

Chciałbym wiedzieć, jak pewny siebie mogę być w mojej λ . Czy ktoś zna sposób na ustawienie górnego i dolnego poziomu ufności dla rozkładu Poissona?

  • Obserwacje ( n ) = 88
  • Średnia próbki ( λ ) = 47,18182

jak wyglądałoby w tym przypadku 95% zaufania?

Travis
źródło
Możesz również rozważyć rozpoczęcie ładowania swoich oszacowań. Oto krótki samouczek na temat ładowania początkowego.
Mark T Patterson

Odpowiedzi:

27

Dla Poissona zarówno średnia, jak i wariancja są . Jeśli chcesz mieć przedział ufności wokół lambda, możesz obliczyć błąd standardowy jako λ .λ/n

95-procentowy przedział ufności jest X ± 1,96 .λ^±1,96λ^/n

Nick Stauner
źródło
26
Jest to w porządku, gdy jest duże, ponieważ wtedy Poissona jest odpowiednio aproksymowane rozkładem normalnym. W przypadku niewielkich wartości lub większej pewności dostępne są lepsze interwały. Zobacz math.mcmaster.ca/peter/s743/poissonalpha.html dla dwóch z nich wraz z analizą ich rzeczywistego zasięgu. (Tutaj „dokładny” przedział wynosi (45,7575, 48,6392), przedział „Pearson” wynosi (45,7683, 48,639), a normalne przybliżenie daje (45,7467, 48,617): jest trochę za niski, ale wystarczająco blisko, ponieważ n λ = 4152 ).nλnλ=4152
whuber
4
Dla innych zdezorientowanych jak ja: oto opis, skąd pochodzi 1,96.
mjibson
2
Jak obliczyłeś dokładny odstęp czasu dla tego problemu, biorąc pod uwagę informacje na tej stronie podane przez Whuber? Nie mogłem śledzić, ponieważ ta witryna wydaje się wskazywać tylko, jak postępować, gdy masz jedną próbkę. Może po prostu nie rozumiem czegoś prostego, ale mój rozkład ma znacznie mniejszą wartość lambda (n), więc nie mogę użyć normalnego przybliżenia i nie wiem, jak obliczyć dokładną wartość. Każda pomoc byłaby bardzo mile widziana. Dzięki!
Tutaj używają standardowego odchylenia średniej, prawda? Oznacza to, że SE = sig/sqrt(N) = sqrt(lam/N)? Miałoby to sens, ponieważ odchylenie standardowe pojedynczych wartości sigmówi nam o prawdopodobieństwie wyciągnięcia losowych próbek z rozkładu Poissona, podczas SEgdy zdefiniowane powyżej mówi nam o naszym zaufaniu lam, biorąc pod uwagę liczbę próbek, których użyliśmy do oszacowania.
AlexG
17

W tym artykule omówiono 19 różnych sposobów obliczania przedziału ufności dla średniej rozkładu Poissona.

http://www.ine.pt/revstat/pdf/rs120203.pdf

Tomek
źródło
2
Pomimo powiadomienia o modzie tutaj podoba mi się ta odpowiedź taka, jaka jest, ponieważ wskazuje ona, że ​​istnieje mniej niż ogólny konsensus co do sposobu oceny zmierzonego systemu Poissona.
Carl Witthoft,
7

Oprócz odpowiedzi udzielonych przez innych, inne podejście do tego problemu osiąga się poprzez podejście modelowe. Podejście oparte na twierdzeniu o limicie centralnym jest z pewnością poprawne, a szacunki początkowe zapewniają dużą ochronę przed małymi próbkami i problemami z błędną specyfikacją trybu.

Aby uzyskać większą wydajność, można uzyskać lepszy przedział ufności dla , stosując podejście oparte na modelu regresji. Nie trzeba przechodzić przez pochodne, ale proste obliczenie w R wygląda następująco:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

To niesymetryczne oszacowanie przedziału, pamiętajcie, ponieważ naturalnym parametrem poissona glm jest szybkość względna logu! Jest to zaletą, ponieważ istnieje tendencja do przechylania danych zliczania w prawo.

Powyższe podejście ma wzór i jest to:

exp(logλ^±1nλ^)

Ten przedział ufności jest „efektywny” w tym sensie, że pochodzi z oszacowania maksymalnego prawdopodobieństwa na skali parametru naturalnego (log) dla danych Poissona i zapewnia ściślejszy przedział ufności niż ten oparty na skali zliczania przy zachowaniu nominalnego 95% pokrycia .

AdamO
źródło
+1 Myślę jednak, że użyłbym innego przymiotnika niż wydajność (lub, bardziej precyzyjnie, masz na myśli wydajność obliczeniową lub golfową). komentarz Whubera wskazuje na zasób, który podaje dokładne interwały, a podejście glm opiera się również na asymptotycznych wynikach. (Jest to jednak bardziej ogólne, więc lubię też zalecać takie podejście.)
Andy W
μ
1
Jaki jest twój autorytet dla tej formuły. Czy możemy podać cytat?
pauljohn32
@AndyW: twój link nie jest ważny do szybkiej symulacji
pauljohn32
1
@ pauljohn32 sprawdź tekst Caselli Berger, zwłaszcza na temat rodziny wykładniczej, częstość logów jest naturalnym parametrem.
AdamO,
5

Biorąc pod uwagę obserwację z rozkładu Poissona ,

  • liczba zliczonych zdarzeń wynosi n.
  • λσ2)

Krok po kroku,

  • λ^=nλ
  • n>20σ

stderr=σ=λn

Teraz przedział ufności 95% wynosi,

I=λ^±1.96 stderr=n±1.96 n

[Edytowane] Niektóre obliczenia na podstawie danych pytań,

  • Zakładając, że λ wskazany w pytaniu został sprawdzony zewnętrznie lub został nam przekazany, tj. jest to dobra informacja, a nie oszacowanie.

    Przyjmuję to założenie, ponieważ pierwotne pytanie nie zawiera żadnego kontekstu dotyczącego eksperymentu ani sposobu uzyskania danych (co ma ogromne znaczenie przy manipulowaniu danymi statystycznymi).

  • 95% przedział ufności dla danego przypadku to

ja=λ±1,96 stremirr=λ±1,96 λ=47,18182±1,96 47,18182[33,72,60,64]

Dlatego, ponieważ pomiar (n = 88 zdarzeń) jest poza 95% przedziałem ufności, dochodzimy do wniosku, że:

  1. Proces nie przebiega po procesie Poissona lub

  2. The λ podano nam, że jest niepoprawne.


Ważna uwaga : pierwsza zaakceptowana odpowiedź powyżej jest błędna , ponieważ błędnie stwierdza, że błąd standardowy dla obserwacji Poissona toλ/n. Jest to błąd standardowy dla procesu Średnia próbki (próbka pomiarowa).

jose.angel.jimenez
źródło
1
Witamy na stronie! Ale @Travis ”chciałby wiedzieć, jak pewny jestem siebieλ", więc powinien to być przedział ufności wokół średniej próbki. Poza tym, co masz na myśli nλ, biorąc pod uwagę, że są to odpowiednio 88 i 47?
Randel,
2
Dzięki! Teraz zredagowałem odpowiedź, w tym niektóre konkretne obliczenia. Pytanie nie wyjaśnia, w jaki sposóbλi n zostały uzyskane, więc zgadłem. Jak mówisz, jeśli n różni się zbytnio odλjest pierwszą wskazówką, że model może nie być Poissonem lub pomiar nie został wykonany poprawnie. Jednym ze sposobów sprawdzenia tego jest dokładne obliczenie 95% przedziału ufności, który w tym przypadku pokazuje, że n jest poza przedziałem.
jose.angel.jimenez
2
Uważam, że powyższa odpowiedź jose.angel.jiminez jest nieprawidłowa i wynika z błędnego odczytania pierwotnego pytania. Oryginalny plakat zawierał „Obserwacje (n) = 88” - była to liczba zaobserwowanych interwałów czasowych, a nie liczba zdarzeń zaobserwowanych ogółem lub na interwał. Średnia liczba zdarzeń na interwał, na próbie 88 interwałów obserwacji, to lambda podana na oryginalnym plakacie. (
Dodałbym
@ user44436 dodał odpowiedź, która miała być komentarzem. Przekazuję go jako komentarz, abyś mógł go zobaczyć, a ponieważ jako brak odpowiedzi może zostać usunięty: ------- Uważam, że odpowiedź Josepha powyżej jest niepoprawna i wynika z błędnego odczytania pierwotnego pytania. Oryginalny plakat podał: Obserwacje (n) = 88 - była to liczba zaobserwowanych przedziałów czasowych, a nie liczba zaobserwowanych zdarzeń ogółem lub na przedział. Średnia liczba zdarzeń na interwał w próbie 88 interwałów obserwacji to lambda podana na oryginalnym plakacie.
Mörre