Mam zbiór danych o przypadkach incydentów według sezonu rzadkiej choroby. Powiedzmy, że na wiosnę było 180 przypadków, 90 latem, 45 jesienią, a 210 zimą. Mam problem z tym, czy do tych liczb należy dołączyć standardowe błędy. Cele badań są wnioskowe w tym sensie, że szukamy sezonowego wzorca zapadalności na choroby, który może się powtórzyć w przyszłości. Dlatego intuicyjnie wydaje się, że możliwe jest dołączenie miary niepewności do sum. Nie jestem jednak pewien, jak obliczyć standardowy błąd w tym przypadku, ponieważ mamy do czynienia z prostymi liczeniami, a nie np. Średnimi lub proporcjami.
Wreszcie, czy odpowiedź będzie zależeć od tego, czy dane reprezentują populację przypadków (każdy przypadek, który kiedykolwiek miał miejsce), czy losową próbę? Jeśli się nie mylę, generalnie nie ma sensu przedstawiać standardowych błędów w statystykach dotyczących populacji, ponieważ nie można wnioskować.
źródło
Odpowiedzi:
Populacja jest (hipotetycznym) zbiorem wszystkich osób zagrożonych zachorowaniem; zazwyczaj składa się ze wszystkich osób (lub pewnej wyraźnie identyfikowalnej podgrupy osób) zamieszkałych na badanym obszarze. Ważne jest, aby jasno zdefiniować tę populację, ponieważ jest ona celem badania i wszystkich wniosków wyciągniętych z danych.
Gdy przypadki choroby są niezależne (co może być uzasadnioną hipotezą, gdy choroba nie jest łatwo komunikowana między ludźmi i nie jest spowodowana lokalnymi warunkami środowiskowymi) i są rzadkie, liczby powinny być ściśle zgodne z rozkładem Poissona . Dla tego rozkładu dobrym oszacowaniem jego odchylenia standardowego jest pierwiastek kwadratowy zliczenia .
To tyle, na ile można posunąć się z tymi ograniczonymi danymi. Te proste obliczenia wykazały, że:
Charakterystyka populacji ma kluczowe znaczenie,
Pierwiastek kwadratowy zliczenia jest wstępnym punktem wyjścia do oceny jego błędu standardowego,
Pierwiastek kwadratowy musi zostać pomnożony (z grubsza) przez jakiś czynnik, aby odzwierciedlić brak niezależności w przypadkach chorobowych (i ten czynnik może być w przybliżeniu związany z wielkościami skupisk chorób),
Zróżnicowanie między tymi liczbami odzwierciedla przede wszystkim zmienność częstości występowania choroby w czasie, a nie niepewność (dotyczące podstawowej intensywności Poissona).
źródło
Nie jestem żartobliwy, kiedy pytam: „Standardowy błąd czego?” Możesz wziąć średnią z tych czterech cyfr i obliczyć standardowy błąd tego środka. Ta statystyka i wynikający z niej przedział ufności miałyby sens, gdybyś uważał, że słusznie traktujesz te 4 sezony jako reprezentatywne dla wszystkich zbiorów 4 sezonów, do których możesz uogólniać. W zakresie, w jakim jesteś tak uzasadniony, dane, które posiadasz, byłyby w rzeczywistości losową próbą populacji. Próbkowanie, o którym wspominasz, pociągałoby za sobą dodatkową warstwę próbkowania - możesz to nazwać próbkowaniem zbiorczym, gdzie każdy rok stanowi klaster.
źródło