Mamy procesu losowego, które mogą, albo nie, może wystąpić wiele razy w zadanym okresie czasu . Mamy plik danych z wcześniej istniejącego modelu tego procesu, który zapewnia prawdopodobieństwo wystąpienia wielu zdarzeń w okresie 0 \ leq t <T . Ten istniejący model jest stary i musimy przeprowadzać bieżące kontrole danych kanału w celu wykrycia błędów szacunkowych. Stary model generujący źródło danych (który zapewnia prawdopodobieństwo wystąpienia n zdarzeń w pozostałym czasie t ) ma w przybliżeniu rozkład Poissona.
Aby więc sprawdzić anomalie / błędy, niech będzie czasem pozostałym, a będzie całkowitą liczbą zdarzeń, które wystąpią w pozostałym czasie . Stary model zakłada oszacowania . Zatem przy naszym założeniu mamy:
To podejście działa fantastycznie dobrze przy wykrywaniu błędów w szacowanych liczbach zdarzeń w pełnym okresie , ale nie tak dobrze, jeśli chcemy zrobić to samo dla innego okresu gdzie . Aby obejść ten problem, zdecydowaliśmy, że chcemy teraz przełączyć się na stosowanie ujemnego rozkładu dwumianowego, więc przyjmujemy teraz i mamy:
1. Czy możemy jedynie ustawić w ujemnym rozkładzie dwumianowym? Jeśli nie, dlaczego nie?
2. Zakładając, że możemy ustawić gdzie jest jakąś funkcją, w jaki sposób możemy poprawnie ustawić (czy musimy dopasować używając wcześniejszych zestawów danych)?
3. Czy zależy od liczby zdarzeń, których spodziewamy się podczas danego procesu?
Dodatek do wyodrębniania oszacowań dla (i ):
Zdaję sobie sprawę, że jeśli w rzeczywistości miał ten problem odwrócone, i mieliśmy liczby zdarzeń dla każdego procesu, możemy przyjąć maksymalny estymator prawdopodobieństwa dla i . Oczywiście maksymalny estymator prawdopodobieństwa istnieje tylko dla próbek, dla których wariancja próbki jest większa niż średnia próbki, ale gdyby tak było, moglibyśmy ustawić funkcję prawdopodobieństwa dla niezależnych identycznie rozmieszczonych obserwacji as: z którego możemy zapisać funkcję logarytmu wiarygodności jako: p N k 1 , k 2 , … , k N L ( r , p ) = N ∏ i = 1 P ( k i ; r , p ) , l ( r , p ) = N ∑ i = 1 ln ( Γ ( k i + r ) ) - N = 1
źródło
Odpowiedzi:
Ujemny rozkład dwumianowy jest bardzo podobny do dwumianowego modelu prawdopodobieństwa. ma zastosowanie, gdy spełnione są następujące założenia (warunki) 1) Każdy eksperyment jest przeprowadzany w tych samych warunkach, aż do osiągnięcia określonej liczby sukcesów, powiedzmy C, 2) Wynik każdego eksperymentu można zaklasyfikować do jednej z dwóch kategorii , sukces lub porażka 3) Prawdopodobieństwo P sukcesu jest takie samo dla każdego eksperymentu 40 Każdy eksperyment jest niezależny od pozostałych. Pierwszy warunek jest jedynym kluczowym czynnikiem odróżniającym dwumianowy od ujemnego dwumianowego
źródło
Rozkład Poissona może być rozsądnym przybliżeniem dwumianu w pewnych warunkach, takich jak 1) Prawdopodobieństwo sukcesu dla każdej próby jest bardzo małe. P -> 0 2) np = m (powiedzmy) jest drobna Reguła najczęściej stosowana przez statystyków jest taka, że poissona jest dobrym przybliżeniem dwumianu, gdy n jest równe lub większe niż 20, a p jest równe lub mniejsze niż 5 %
źródło