Jak obliczyć pokrycie przedziału dyskretnego?
Co wiem jak to zrobić:
Gdybym miał model ciągły, mógłbym zdefiniować 95% przedział ufności dla każdej z moich przewidywanych wartości, a następnie zobaczyć, jak często rzeczywiste wartości mieściły się w przedziale ufności. Mogę stwierdzić, że tylko 88% czasu, w którym mój 95% przedział ufności obejmował rzeczywiste wartości.
Czego nie wiem jak to zrobić:
Jak to zrobić dla modelu dyskretnego, takiego jak Poissona lub Gamma-Poissona? To, co mam dla tego modelu, jest następujące, biorąc jedną obserwację (z ponad 100 000 planuję wygenerować :)
Obserwacja nr: (dowolna)
Wartość przewidywana: 1,5
Przewidywane prawdopodobieństwo 0: .223
Przewidywane prawdopodobieństwo 1: .335
Przewidywane prawdopodobieństwo 2: .251
Przewidywane prawdopodobieństwo 3: .126
Przewidywane prawdopodobieństwo 4: 0,048
Przewidywane prawdopodobieństwo 5: 0,014 [i 5 lub więcej to 0,019]
...(itp)
Przewidywane prawdopodobieństwo 100 (lub jakaś inna nierealna liczba): .000
Rzeczywista wartość (liczba całkowita, taka jak „4”)
Zauważ, że chociaż podałem powyżej wartości Poissona, w rzeczywistym modelu przewidywana wartość 1,5 może mieć różne przewidywane prawdopodobieństwa 0,1, ... 100 dla różnych obserwacji.
Jestem zdezorientowany dyskrecją wartości. „5” jest oczywiście poza przedziałem 95%, ponieważ jest tylko 0,019 przy 5 i powyżej, czyli mniej niż 0,025. Ale będzie ich dużo - pojedynczo są w środku, ale jak wspólnie lepiej oszacować liczbę 4?
Dlaczego mnie to obchodzi?
Modele, na które patrzę, zostały skrytykowane za to, że są dokładne na poziomie zagregowanym, ale dają słabe indywidualne prognozy. Chcę zobaczyć, o ile gorsze są słabe indywidualne przewidywania niż z natury szerokie przedziały ufności przewidywane przez model. Oczekuję, że zasięg empiryczny będzie gorszy (np. Mogę stwierdzić, że 88% wartości mieści się w 95% przedziale ufności), ale mam nadzieję, że tylko trochę gorzej.
źródło