Standardowy błąd zliczania

14

Mam zbiór danych o przypadkach incydentów według sezonu rzadkiej choroby. Powiedzmy, że na wiosnę było 180 przypadków, 90 latem, 45 jesienią, a 210 zimą. Mam problem z tym, czy do tych liczb należy dołączyć standardowe błędy. Cele badań są wnioskowe w tym sensie, że szukamy sezonowego wzorca zapadalności na choroby, który może się powtórzyć w przyszłości. Dlatego intuicyjnie wydaje się, że możliwe jest dołączenie miary niepewności do sum. Nie jestem jednak pewien, jak obliczyć standardowy błąd w tym przypadku, ponieważ mamy do czynienia z prostymi liczeniami, a nie np. Średnimi lub proporcjami.

Wreszcie, czy odpowiedź będzie zależeć od tego, czy dane reprezentują populację przypadków (każdy przypadek, który kiedykolwiek miał miejsce), czy losową próbę? Jeśli się nie mylę, generalnie nie ma sensu przedstawiać standardowych błędów w statystykach dotyczących populacji, ponieważ nie można wnioskować.

półprzejście
źródło
Liczba jest po prostu nienormalizowaną proporcją, dzięki czemu można obliczyć st. błąd proporcji i „nienormalizuj” go na jednostki zliczające, jeśli ma to dla ciebie sens. Masz rację, że św. błąd dotyczy tylko próbki. W populacji nie ma błędu.
ttnphns

Odpowiedzi:

14

Populacja jest (hipotetycznym) zbiorem wszystkich osób zagrożonych zachorowaniem; zazwyczaj składa się ze wszystkich osób (lub pewnej wyraźnie identyfikowalnej podgrupy osób) zamieszkałych na badanym obszarze. Ważne jest, aby jasno zdefiniować tę populację, ponieważ jest ona celem badania i wszystkich wniosków wyciągniętych z danych.

Gdy przypadki choroby są niezależne (co może być uzasadnioną hipotezą, gdy choroba nie jest łatwo komunikowana między ludźmi i nie jest spowodowana lokalnymi warunkami środowiskowymi) i są rzadkie, liczby powinny być ściśle zgodne z rozkładem Poissona . Dla tego rozkładu dobrym oszacowaniem jego odchylenia standardowego jest pierwiastek kwadratowy zliczenia .

(180,90,45,210)(13.4,9.5,6.7,14.5)w rzeczywistości rzeczywista liczba chorób zaobserwowanych w sezonie będzie się różnić od tego prawdziwego wskaźnika. Pierwiastek kwadratowy z prawdziwej (ale nieznanej!) Częstości określa ilość możliwych zmian. Ponieważ obserwowane liczby powinny być zbliżone do prawdziwych stawek, ich pierwiastki kwadratowe powinny być rozsądnym przybliżeniem pierwiastków kwadratowych prawdziwych stawek. Te proxy są dokładnie tym, co rozumie się przez „błąd standardowy”.

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28,5,20,44)

To tyle, na ile można posunąć się z tymi ograniczonymi danymi. Te proste obliczenia wykazały, że:

  • Charakterystyka populacji ma kluczowe znaczenie,

  • Pierwiastek kwadratowy zliczenia jest wstępnym punktem wyjścia do oceny jego błędu standardowego,

  • Pierwiastek kwadratowy musi zostać pomnożony (z grubsza) przez jakiś czynnik, aby odzwierciedlić brak niezależności w przypadkach chorobowych (i ten czynnik może być w przybliżeniu związany z wielkościami skupisk chorób),

  • Zróżnicowanie między tymi liczbami odzwierciedla przede wszystkim zmienność częstości występowania choroby w czasie, a nie niepewność (dotyczące podstawowej intensywności Poissona).

Whuber
źródło
1
Bardzo przemyślana, dokładna odpowiedź! Dziękuję bardzo.
pół-przepustowy
2

Nie jestem żartobliwy, kiedy pytam: „Standardowy błąd czego?” Możesz wziąć średnią z tych czterech cyfr i obliczyć standardowy błąd tego środka. Ta statystyka i wynikający z niej przedział ufności miałyby sens, gdybyś uważał, że słusznie traktujesz te 4 sezony jako reprezentatywne dla wszystkich zbiorów 4 sezonów, do których możesz uogólniać. W zakresie, w jakim jesteś tak uzasadniony, dane, które posiadasz, byłyby w rzeczywistości losową próbą populacji. Próbkowanie, o którym wspominasz, pociągałoby za sobą dodatkową warstwę próbkowania - możesz to nazwać próbkowaniem zbiorczym, gdzie każdy rok stanowi klaster.

rolando2
źródło