Mam prawie takie same pytania: Jak mogę skutecznie modelować sumę losowych zmiennych Bernoulliego?
Ale ustawienie jest zupełnie inne:
, , ~ 20, ~ 0,1
Mamy dane dotyczące wyników zmiennych losowych Bernoulliego: ,
Jeśli oszacujemy z oszacowaniem maksymalnego prawdopodobieństwa (i uzyskamy ), okaże się, że jest znacznie większy niż oczekiwane według innych kryteriów:
Tak więc i nie mogą być traktowane jako niezależne (mają małą zależność).
Istnieje kilka takich ograniczeń: i (znane), które powinny pomóc w oszacowaniu .
Jak moglibyśmy spróbować modelować sumę losowych zmiennych Bernoulliego w tym przypadku?
Jaka literatura może być przydatna do rozwiązania zadania?
AKTUALIZACJA
Istnieje kilka innych pomysłów:
(1) Można założyć, że nieznana zależność między zaczyna się po 1 lub więcej sukcesach w serii. Więc kiedy, i .
(2) Aby korzystać z MLE, potrzebujemy najmniej wątpliwego modelu. Oto wariant:
if dla dowolnego k jeślii , a dla dowolnego k.
(3) Ponieważ interesujemy się tylko , możemy ustawić (prawdopodobieństwo sukcesów dla sum N- (k + 1) +1 od ogona). I użyj parametryzacji
(4) Użyj MLE dla modelu opartego na parametrach i z dla (i dowolnego ) oraz niektórych innych ograniczeń natywnych .
Czy wszystko jest w porządku z tym planem?
AKTUALIZACJA 2
Niektóre przykłady rozkładu empirycznego (czerwony) w porównaniu z rozkładem Poissona (niebieski) (średnie Poissona to 2,22 i 2,45, rozmiary próbek to 332 i 259):
Dla próbek (A1, A2) ze środkami Poissona 2.28 i 2.51 (wielkości próbek wynoszą 303 i 249):
W przypadku połączonych próbek A1 + A2 (wielkość próby wynosi 552):
Wygląda na to, że poprawka Poissona powinna być najlepszym modelem :).
Odpowiedzi:
Jednym podejściem byłoby modelowanie za pomocą uogólnionego modelu liniowego (GLM). W tym przypadku sformułujesz , prawdopodobieństwo sukcesu w próbie jako funkcję (logistyczną liniową) najnowszej historii obserwacji. Więc zasadniczo dopasowujesz autoregresyjny GLM, w którym szum to Bernoulli, a funkcja link jest logit. Konfiguracja jest następująca:X pi i
Parametry modelu to , które można oszacować za pomocą regresji logistycznej. (Wszystko, co musisz zrobić, to skonfigurować macierz projektową przy użyciu odpowiedniej części historii obserwacji na każdej próbie i przekazać ją do funkcji szacowania regresji logistycznej; prawdopodobieństwo logarytmiczne jest wklęsłe, więc istnieje unikalne globalne maksimum dla parametrów). Jeżeli wyniki są rzeczywiście niezależne, wówczas wartości zostaną ustawione na zero; dodatnie oznacza, że kolejne wzrastają za każdym razem, gdy obserwuje się sukces.{b,a1,…ak} ai ai pi
Model nie zapewnić ekspresję proste dla prawdopodobieństwa nad sumy z jest, ale jest łatwo obliczyć na podstawie symulacji (filtr cząsteczek lub MCMC), ponieważ model ten prosty Markowian strukturę.Xi
Ten rodzaj modelu z dużym powodzeniem wykorzystano do modelowania zależności czasowych między „skokami” neuronów w mózgu i istnieje obszerna literatura na temat autoregresywnych modeli procesów punktowych. Patrz np. Truccolo i in. 2005 (chociaż w tym dokumencie wykorzystano Poissona zamiast prawdopodobieństwa Bernoulliego, ale mapowanie między nimi jest proste).
źródło
Jeśli zależność jest spowodowana zbijaniem, złożonym modelem Poissona może być rozwiązanie jako modelSj . Nieco przypadkowym odniesieniem jest ten autorstwa Barbour i Chryssaphinou.
W zupełnie innym kierunku, skoro to wskazujeszN wynosi 20, a zatem względnie mały, można zbudować model graficzny Xij , ale nie wiem, czy Twoja konfiguracja i dane to umożliwiają. Jak komentuje @chl, przydatne będzie opisanie tego, coXi,j są.
Jeśli…Xi,j reprezentują sekwencyjne pomiary, np. w czasie, i zależność jest z tym związana, trzecią możliwością - i do pewnego stopnia kompromisem między dwiema powyższymi sugestiami - jest zastosowanie ukrytego modelu Markowa Xi,j „s.
źródło