Zmienić modelowanie procesu za pomocą rozkładu Poissona, aby zastosować ujemny rozkład dwumianowy?

24

Mamy procesu losowego, które mogą, albo nie, może wystąpić wiele razy w zadanym okresie czasu . Mamy plik danych z wcześniej istniejącego modelu tego procesu, który zapewnia prawdopodobieństwo wystąpienia wielu zdarzeń w okresie 0 \ leq t <T . Ten istniejący model jest stary i musimy przeprowadzać bieżące kontrole danych kanału w celu wykrycia błędów szacunkowych. Stary model generujący źródło danych (który zapewnia prawdopodobieństwo wystąpienia n zdarzeń w pozostałym czasie t ) ma w przybliżeniu rozkład Poissona.T0t<Tnt

Aby więc sprawdzić anomalie / błędy, niech t będzie czasem pozostałym, a Xt będzie całkowitą liczbą zdarzeń, które wystąpią w pozostałym czasie t . Stary model zakłada oszacowania P(Xtc) . Zatem przy naszym założeniu XtPoisson(λt) mamy:

P(Xtc)=eλk=0cλtkk!.
Aby uzyskać naszą częstotliwość zdarzeń λt z danych wyjściowych starego modelu (obserwacje yt ), używamy podejścia do przestrzeni stanów i modelujemy relację stanu jako:
yt=λt+εt(εtN(0,Ht)).
Filtrujemy obserwacje ze starego modelu, używając modelu przestrzeni [rozpadu stałej prędkości] do ewolucji \ lambda_t wλt celu uzyskania stanu filtrowanego E(λt|Yt) i oznaczamy anomalię / błąd w szacowanej częstotliwości zdarzeń z dane kanału, jeśli E(λt|Yt)<yt .

To podejście działa fantastycznie dobrze przy wykrywaniu błędów w szacowanych liczbach zdarzeń w pełnym okresie T , ale nie tak dobrze, jeśli chcemy zrobić to samo dla innego okresu 0t<σ gdzie σ<23T . Aby obejść ten problem, zdecydowaliśmy, że chcemy teraz przełączyć się na stosowanie ujemnego rozkładu dwumianowego, więc przyjmujemy teraz XtNB(r,p) i mamy:

P(Xtc)=prk=0c(1p)k(k+r1r1),
gdzie parametr λ został zastąpiony przez r i p. Powinno to być łatwe do wdrożenia, ale mam pewne trudności z interpretacją, dlatego mam pytania, w których chciałbym pomóc:

1. Czy możemy jedynie ustawić p=λ w ujemnym rozkładzie dwumianowym? Jeśli nie, dlaczego nie?

2. Zakładając, że możemy ustawić p=f(λ) gdzie f jest jakąś funkcją, w jaki sposób możemy poprawnie ustawić r (czy musimy dopasować r używając wcześniejszych zestawów danych)?

3. Czy r zależy od liczby zdarzeń, których spodziewamy się podczas danego procesu?


Dodatek do wyodrębniania oszacowań dla r (i p ):

Zdaję sobie sprawę, że jeśli w rzeczywistości miał ten problem odwrócone, i mieliśmy liczby zdarzeń dla każdego procesu, możemy przyjąć maksymalny estymator prawdopodobieństwa dla i . Oczywiście maksymalny estymator prawdopodobieństwa istnieje tylko dla próbek, dla których wariancja próbki jest większa niż średnia próbki, ale gdyby tak było, moglibyśmy ustawić funkcję prawdopodobieństwa dla niezależnych identycznie rozmieszczonych obserwacji as: z którego możemy zapisać funkcję logarytmu wiarygodności jako: p N k 1 , k 2 , , k N L ( r , p ) = N i = 1 P ( k i ; r , p ) , l ( r , p ) = N i = 1 ln ( Γ ( k i + r ) ) - N = 1rpNk1,k2,,kN

L.(r,p)=ja=1N.P.(kja;r,p),
l(r,p)=ja=1N.ln(Γ(kja+r))i=1Nln(ki!)Nln(Γ(r))+i=1Nkiln(p)+Nrln(1p).
Aby znaleźć maksimum, bierzemy pochodne cząstkowe w odniesieniu do i i ustawiamy je na zero: Ustawienie i ustawienie znajdujemy: rprl(r,p)=pl(r,p)=0
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(1p),pl(r,p)=i=1Nki1pNr11p.
rl(r,p)=pl(r,p)=0p=i=1Nki(Nr+i=1Nki),
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(rr+i=1NkiN)=0.
To równanie nie może być rozwiązane dla rw postaci zamkniętej przy użyciu Newtona lub nawet EM. W tej sytuacji tak jednak nie jest. Chociaż moglibyśmy użyć danych z przeszłości, aby uzyskać statyczne wartości i tak naprawdę nie ma to żadnego zastosowania w naszym procesie, musimy dostosować te parametry w czasie, tak jak to zrobiliśmy za pomocą Poissona. rp
Księżycowy rycerz
źródło
1
Dlaczego nie podłączyć danych do modelu regresji Poissona lub ujemnej dwumianowej?
StatsStudent
1
Nie czuję powinien mieć do użycia. Biorąc pod uwagę, że Poisson jest ograniczającym przypadkiem ujemnego dwumianu, powinien istnieć sposób na sparametryzowanie tego problemu w podobny sposób, jaki zrobiłem dla Poissona. Ponadto proces ten zachodzi jednocześnie dla tysięcy procesów różnicowych i żaden z nich nie ma tej samej „częstotliwości zdarzeń”, co oznacza, że ​​analiza regresji dla tych parametrów musiałaby być wykonywana przy każdej nowej obserwacji dla wszystkich procesów na żywo. To nie jest możliwe. Bardzo dziękuję za
poświęcenie
1
Jeśli chodzi o powiązanie poissona z NB, jeśli masz z ukrytą zmienną dyspersji , aby i . To da marginalny rozkład NB po zintegrowaniu . Możesz użyć tego, aby pomóc. (Xt|λt,rt,gt)Pois(λtgt)(gt|rt)Gamma(rt,rt)E(gt)=1var(gt)=rt1gt
probabilityislogic
To świetna pomoc, ale czy potrafisz to jeszcze bardziej rozwinąć i podać pewne wyraźne szczegóły? Dziękuję bardzo za
poświęcony
1
Co powiesz na użycie dwumianu zamiast ujemnego dwumianu? To może być łatwiejsze do zrobienia. Anscombe FJ. Transformacja danych Poissona, danych dwumianowych i ujemno-dwumianowych. Biometrika. 1948; 35: 246–54.
Carl

Odpowiedzi:

1

Ujemny rozkład dwumianowy jest bardzo podobny do dwumianowego modelu prawdopodobieństwa. ma zastosowanie, gdy spełnione są następujące założenia (warunki) 1) Każdy eksperyment jest przeprowadzany w tych samych warunkach, aż do osiągnięcia określonej liczby sukcesów, powiedzmy C, 2) Wynik każdego eksperymentu można zaklasyfikować do jednej z dwóch kategorii , sukces lub porażka 3) Prawdopodobieństwo P sukcesu jest takie samo dla każdego eksperymentu 40 Każdy eksperyment jest niezależny od pozostałych. Pierwszy warunek jest jedynym kluczowym czynnikiem odróżniającym dwumianowy od ujemnego dwumianowego

Vishwa Dharma
źródło
0

Rozkład Poissona może być rozsądnym przybliżeniem dwumianu w pewnych warunkach, takich jak 1) Prawdopodobieństwo sukcesu dla każdej próby jest bardzo małe. P -> 0 2) np = m (powiedzmy) jest drobna Reguła najczęściej stosowana przez statystyków jest taka, że ​​poissona jest dobrym przybliżeniem dwumianu, gdy n jest równe lub większe niż 20, a p jest równe lub mniejsze niż 5 %

Vishwa Dharma
źródło