To zależy od celu twoich badań. Moim zdaniem może być ich kilka:
- Chcesz zrozumieć, jakie są typowe czynniki, które powodują przypadki i zgony, i na które nie mają wpływu okresy epidemiczne oraz czynniki, które powodują epidemie (więc jesteś zainteresowany typowymi nie wymuszającymi poważnych prawdopodobieństw) - w tym przypadku oczywiście musisz usunąć epidemię okresy od danych, ponieważ mają one na celu badanie wartości odstających od tego, co chciałbyś wyciągnąć
- Możesz uwzględnić zmiany epidemii w swoich modelach (na przykład mile widziane są wszelkie dobre linki i sugestie modeli od społeczności), ponieważ chcesz poznać prawdopodobieństwo wystąpienia okresu epidemii (a także jak długo będzie trwać), w celu przetestowania stabilności i prognozowania - w tym przypadku nie wyklucza się okresów epidemii, ale zamiast tego należy szukać bardziej skomplikowanych modeli zamiast lub czegoś podobnego młot-narzędzie ekonometryczneO L S
- Twoim głównym celem jest wykrywanie okresów epidemii i monitorowanie ich w czasie rzeczywistym - jest to specjalna dziedzina w ekonometrii, z którą współpracuje wielu moich kolegów na Uniwersytecie Wileńskim (zdecydowanie chciałbyś mieć wiele obserwacji epidemii, aby poradzić sobie z nimi )
Więc jeśli twoim głównym celem jest coś takiego jak 2, wyczyszczenie danych spowoduje błędne wnioski dotyczące przyszłych prognoz, tj. Niedokładne wyniki prognozowania. Prawdą jest również, że drugi przypadek niekoniecznie zapewnia lepsze prognozy, ale przynajmniej można wyciągnąć wnioski na temat prawdopodobieństwa okresów epidemii i ich długości. Jest to niezwykle ważne dla matematyków aktuarialnych, więc może to ty jesteś tym jedynym?
Osobiście nie nazwałbym tego „czyszczeniem danych”. Myślę o czyszczeniu danych bardziej w sensie edycji danych - usuwaniu niespójności w zbiorze danych (np. Rekord podaje wiek 1000 lub osoba w wieku 4 lat jest samotnym rodzicem itp.).
Obecność rzeczywistego efektu w twoich danych nie powoduje, że jest „bałagan” (przeciwnie, obecność prawdziwych efektów uczyni go bogatym) - chociaż może sprawić, że twoje matematyczne zadanie będzie bardziej zaangażowane. Sugerowałbym, aby „oczyścić” dane w ten sposób, jeśli jest to jedyny możliwy sposób uzyskania prognozy. Jeśli istnieje wykonalny sposób, który nie wyrzuca informacji, skorzystaj z niego.
Wygląda na to, że możesz skorzystać z jakiejś analizy cyklicznej, biorąc pod uwagę, że mówisz, że efekt ten pojawia się okresowo (coś w rodzaju „cyklu koniunkturalnego”).
Z mojego punktu widzenia, jeśli patrzysz na coś prognozującego, usunięcie prawdziwego efektu z tego źródła może tylko pogorszyć twoje przewidywania. Jest tak, ponieważ skutecznie „wyrzuciłeś” informacje, które chcesz przewidzieć!
Inną kwestią jest to, że ustalenie, ile zgonów było wynikiem epidemii, a ile zwykłych wahań, może być trudne.
W terminologii statystycznej epidemia wydaje się taka, z twojego punktu widzenia jest to „uciążliwość” dla tego, co naprawdę chcesz przeanalizować. Więc nie jesteś tym szczególnie zainteresowany, ale musisz w jakiś sposób uwzględnić to w swojej analizie. Jednym z „szybkich i nieprzyzwoitych” sposobów na dokonanie tego w ustawieniach regresji jest włączenie wskaźnika dla lat / okresów epidemii jako zmiennej regresora. To da ci średnią ocenę skutków epidemii (i domyślnie zakłada, że wpływ jest taki sam dla każdej epidemii). Jednak to podejście działa tylko w celu opisania efektu, ponieważ podczas prognozowania zmienna regresji jest nieznana (nie wiadomo, które okresy w przyszłości będą epidemiczne).
Innym sposobem rozliczenia się z epidemii jest zastosowanie modelu mieszanego z dwoma składnikami: jednym modelem dla części epidemicznej i jednym modelem dla „zwykłej” części. Model przechodzi następnie w dwóch etapach: 1) sklasyfikuj okres jako epidemiczny lub normalny, a następnie 2) zastosuj model, do którego został sklasyfikowany.
źródło
Aby dać ogólną odpowiedź na twoje pytanie, pozwól, że sparafrazuję jednego z moich starych dyrektorów generalnych: możliwości badań znajdują się w wartościach odstających od modelu, który pasujesz.
Sytuacja jest podobna do eksperymentu przeprowadzonego przez mojego Roberta Millikana w celu ustalenia ładunku elektronu. Dziesiątki lat po zdobyciu nagrody Nobla za eksperyment, jego notatki zostały przeanalizowane i okazało się, że wyrzucił dużą liczbę punktów danych, ponieważ nie zgadzali się z wynikami, których szukał. Czy to zła nauka?
Jeśli znajdziesz kilka wartości odstających, być może wynika to z „abberacji statystycznych”. Jeśli jednak znajdziesz więcej niż kilka wartości odstających, musisz dokładniej zbadać swoje dane. Jeśli nie możesz przypisać przyczyny abberacji, nie rozumiesz tego procesu, a model statystyczny nie rozwiąże twojego problemu. Celem modelu jest podsumowanie procesu, model nie magicznie podsumuje procesu, którego eksperymentator nie rozumie.
źródło
Rolą „czyszczenia danych” jest identyfikacja, kiedy „nasze prawa (model) nie działają”. Dostosowanie do wartości odstających lub nieprawidłowych punktów danych pozwala nam uzyskać „solidne oszacowania” parametrów w bieżącym modelu, który zajmujemy. Te „wartości odstające”, jeśli nie są leczone, pozwalają na niepożądane zniekształcenie parametrów modelu, ponieważ oszacowanie jest „motywowane do wyjaśnienia tych punktów danych”, które „nie zachowują się zgodnie z naszym hipotetycznym modelem”. Innymi słowy, istnieje wiele zwrotów pod względem wyjaśnionej sumy kwadratów poprzez skupienie się na „złych”. Empirycznie zidentyfikowane punkty wymagające oczyszczenia należy dokładnie zbadać, aby potencjalnie opracować / zasugerować przyczyny, których nie ma w obecnym modelu.
Jak ocenić efekt interwencji w jednym państwie w porównaniu z innym, stosując roczny wskaźnik śmiertelności przypadków?
Nauka to poszukiwanie powtarzających się wzorców.
Aby wykryć anomalie, należy zidentyfikować wartości, które nie są zgodne z powtarzającymi się wzorami. Skąd inaczej miałbyś wiedzieć, że punkt naruszył ten model? W rzeczywistości proces zwiększania, rozumienia, znajdowania i sprawdzania wartości odstających musi być iteracyjny. To nie jest nowa myśl.
Sir Frances Bacon, pisząc w Novum Organum około 400 lat temu, powiedział: „Błędy natury, sportu i potworów poprawiają rozumienie w odniesieniu do zwykłych rzeczy i ujawniają ogólne formy. Każdy bowiem, kto zna drogi Natury, łatwiej dostrzeże jej odchylenia; a z drugiej strony, ktokolwiek zna rozbieżności, dokładniej opisuje swoje sposoby. ”
Zmieniamy nasze zasady, obserwując, kiedy zawodzą obecne zasady.
Jeśli rzeczywiście zidentyfikowane wartości odstające są impulsami i mają podobny efekt (rozmiar), sugerujemy następujące (cytowane z innego plakatu)
„Jednym z„ szybkich i brudnych ”sposobów, aby to zrobić w ustawieniach regresji, jest włączenie wskaźnika dla lat / okresów epidemii jako zmiennej regresora. To da ci średnie oszacowanie skutków epidemii (i domyślnie zakłada się, że wpływ jest to samo dla każdej epidemii). Jednak to podejście działa tylko w celu opisania efektu, ponieważ w prognozowaniu zmienna regresji jest nieznana (nie wiesz, które okresy w przyszłości będą epidemiami). ”
Dzieje się tak, jeśli kurs wymaga, aby poszczególne anomalie (lata tętna) miały podobne skutki. Jeśli się różnią, opisana powyżej zmienna portmanteau byłaby niepoprawna.
źródło
Jedną z najczęściej stosowanych metod wykrywania epidemii w danych retrospektywnych jest poszukiwanie wartości odstających - na przykład wielu badaczy grypy koncentruje się przede wszystkim na pozostałościach dopasowanych modeli, a nie na samych modelach, aby zobaczyć miejsca, w których „dzień przewidywania modelu na dzień zawodzą - jednym ze sposobów niepowodzenia modelu jest pojawienie się epidemii.
Konieczne jest jednak rozróżnienie między wyszukiwaniem odstających wartości w wynikach - prawdopodobnie nie jest to najlepszy pomysł na świecie - i tym, co większość ludzi nazywa „czyszczeniem danych”. Tutaj szukasz wartości odstających nie dlatego, że stanowią one problem statystyczny, ale ponieważ powodują problemy z jakością danych.
Na przykład w zestawie danych, który posiadam, jest zmienna dla początku choroby. W przypadku jednego przedmiotu data ta przypada na listopad 1929 r. Czy myślę, że to prawda? Nie. Wskazuje to na problem z jakością danych, który należy naprawić - w tym przypadku należy poprawić datę na podstawie innych informacji na ten temat. Ten rodzaj czyszczenia danych aktywnie poprawi jakość twoich wyników statystycznych.
źródło