Jak porównać 2 niestacjonarne szeregi czasowe, aby ustalić korelację?

11

Mam dwie serie danych, które przedstawiają medianę wieku w chwili śmierci. Obie serie wykazują z czasem większy wiek śmierci, ale jedna jest znacznie niższa od drugiej. Chcę ustalić, czy wzrost wieku w chwili śmierci dolnej próbki jest znacząco różny od wzrostu górnej próbki.

Oto dane uporządkowane według roku (od 1972 r. Do 2009 r. Włącznie) w zaokrągleniu do trzech miejsc po przecinku:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Obie serie są niestacjonarne - jak mogę je porównać? Używam STATA. Wszelkie porady będą wdzięczne.

Wykresy danych

Matt Hurley
źródło
Jeśli podasz link do swoich danych, Matt, możemy edytować Twoje pytanie, aby uwzględnić te dane.
whuber
Bardzo dziękuję za zainteresowanie moją trudną sytuacją - dodano link do danych. Każda pomoc byłaby mile
widziana. Matt
@ Matt: Patrząc na dane, wygląda na to, że oba są trendami wzrostowymi. Czy więc zasadniczo interesuje Cię hipoteza, że ​​jedna grupa rośnie szybciej niż druga?
Andrew,
Tak, Andrew - górna kohorta to populacja ogólna, podczas gdy kohorta z gorszym wiekiem śmierci jest grupą umierającą w tym samym stanie. Hipoteza zerowa polega na tym, że jeśli są one ściśle skorelowane, każda poprawa przeżycia jest potencjalnie spowodowana wspólnymi czynnikami (a nie lepszą opieką nad tym stanem).
Matt Hurley,
Wzrosty, jakkolwiek zmierzone, są tak wyraźnie różne, że nie jest wymagany żaden formalny test. (Otrzymasz wartości p wynoszące lub mniej, prawie bez względu na to, jak oceniasz i porównujesz nachylenia, bez względu na to, jak modelujesz zmianę.) Różnica w oczekiwanych długości życia wykładniczo spadła w tempie 0,83% na rok. Interesujące jest nagłe niepowodzenie w kohorcie B w 2001 roku; zmiana ta - równoważna natychmiastowej utracie sześciu lat postępu - jest statystycznie istotna. 1010
whuber

Odpowiedzi:

14

To jest prosta sytuacja; niech tak pozostanie. Kluczem jest skupienie się na tym, co ważne:

  • Uzyskanie przydatnego opisu danych.

  • Ocena indywidualnych odchyleń od tego opisu.

  • Ocena możliwej roli i wpływu przypadku w interpretacji.

  • Utrzymanie integralności intelektualnej i przejrzystości.

Nadal istnieje wiele wyborów, a wiele form analizy będzie poprawnych i skutecznych. Zilustrujmy tutaj jedno podejście, które można zalecić ze względu na przestrzeganie tych kluczowych zasad.

Aby zachować integralność, podzielmy dane na połowy: obserwacje z lat 1972–1990 i te z lat 1991–2009 (każda po 19 lat). Dopasujemy modele do pierwszej połowy, a następnie zobaczymy, jak dobrze pasują do projekcji drugiej połowy. Ma to tę dodatkową zaletę, że wykrywa znaczące zmiany, które mogły wystąpić w drugiej połowie.

Aby uzyskać użyteczny opis, musimy (a) znaleźć sposób pomiaru zmian i (b) dopasować najprostszy możliwy model odpowiedni dla tych zmian, ocenić go i iteracyjnie dopasować bardziej złożone, aby uwzględnić odchylenia od prostych modeli.

(a) Masz wiele możliwości: możesz spojrzeć na surowe dane; możesz spojrzeć na ich roczne różnice; możesz zrobić to samo z logarytmami (aby ocenić zmiany względne); możesz ocenić lata utraty życia lub względną długość życia (RLE); lub wiele innych rzeczy. Po namyśle postanowiłem rozważyć RLE, zdefiniowane jako stosunek oczekiwanej długości życia w kohorcie B w stosunku do (referencyjnej) kohorty A. Na szczęście, jak pokazują wykresy, oczekiwana długość życia w kohorcie A regularnie rośnie w stabilnym mody w czasie, tak że większość losowo wyglądających zmian w RLE będzie spowodowana zmianami w kohorcie B.

(b) Najprostszym możliwym modelem na początek jest trend liniowy. Zobaczmy, jak to działa.

Rycina 1

Ciemnoniebieskie punkty na tym wykresie to dane zachowane do dopasowania; punkty jasnozłote są kolejnymi danymi, nieużytymi do dopasowania. Czarna linia jest dopasowana, ze spadkiem 0,009 / rok. Linie przerywane to przedziały prognoz dla poszczególnych przyszłych wartości.

Ogólnie rzecz biorąc, dopasowanie wygląda dobrze: badanie pozostałości (patrz poniżej) nie wykazuje istotnych zmian w ich rozmiarach w czasie (w okresie danych 1972–1990). (Istnieją pewne oznaki, że były one większe na wczesnym etapie, kiedy oczekiwane życie było niskie. Moglibyśmy poradzić sobie z tym powikłaniem, poświęcając trochę prostoty, ale korzyści z oszacowania trendu raczej nie będą świetne.) Jest tylko najmniejsza wskazówka korelacji szeregowej (wykazywanej przez niektóre serie dodatnich i serie ujemnych reszt), ale najwyraźniej nie jest to ważne. Nie ma wartości odstających, na które wskazywałyby punkty poza przedziałami prognozowania.

Jedną niespodzianką jest to, że w 2001 r. Wartości nagle spadły do ​​niższego przedziału prognozy i pozostały tam: stało się coś dość nagłego i dużego.

Oto reszty, które są odchyleniami od wspomnianego wcześniej opisu.

Rysunek 2

Ponieważ chcemy porównać reszty do 0, linie pionowe są rysowane do poziomu zerowego jako pomoc wizualna. Ponownie niebieskie punkty pokazują dane użyte do dopasowania. Jasnozłote są pozostałością danych spadających w pobliżu dolnej granicy prognozy po 2000 r.

Na podstawie tej liczby możemy oszacować, że efekt zmiany w latach 2000-2001 wyniósł około -0,07 . Odzwierciedla to nagły spadek o 0,07 (7%) pełnego okresu życia w kohorcie B. Po tym spadku poziomy wzorzec reszt wskazuje, że poprzedni trend trwał, ale na nowym niższym poziomie. Ta część analizy powinna zostać uznana za eksploracyjną : nie została specjalnie zaplanowana, ale wynikała z zaskakującego porównania między przetrzymywanymi danymi (1991–2009) a dopasowaniem do reszty danych.

Jeszcze jedno - nawet przy użyciu tylko 19 najwcześniejszych lat danych, standardowy błąd nachylenia jest niewielki: to tylko 0,0009, zaledwie jedna dziesiąta szacowanej wartości 0,009. Odpowiednia statystyka t wynosząca 10, z 17 stopniami swobody, jest niezwykle znacząca (wartość p jest mniejsza niż ); to znaczy, możemy być pewni, że ten trend nie wynika z przypadku. Jest to jedna z części naszej oceny roli przypadku w analizie. Pozostałe części to badania pozostałości.107

Wydaje się, że nie ma powodu, aby dopasować bardziej skomplikowany model do tych danych, przynajmniej nie w celu oszacowania, czy istnieje prawdziwy trend w RLE w czasie: jest taki. Moglibyśmy pójść dalej i podzielić dane na wartości sprzed 2001 r. I wartości po 2000 r. W celu dopracowania naszych szacunkówtrendów, ale przeprowadzanie testów hipotez nie byłoby całkowicie uczciwe. Wartości p byłyby sztucznie niskie, ponieważ testy podziału nie były wcześniej planowane. Ale jako ćwiczenie eksploracyjne takie oszacowanie jest w porządku. Dowiedz się wszystkiego, co możesz na podstawie danych! Uważaj tylko, aby nie oszukać siebie w przypadku nadmiernego dopasowania (co jest prawie pewne, że użyjesz więcej niż pół tuzina parametrów lub zastosujesz techniki automatycznego dopasowywania) lub szpiegowania danych: bądź czujny na różnicę między formalnym potwierdzeniem a nieformalnym (ale cenne) eksploracja danych.

Podsumujmy:

  • Wybierając odpowiednią miarę oczekiwanej długości życia (RLE), utrzymując połowę danych, dopasowując prosty model i testując ten model pod kątem pozostałych danych, z dużym przekonaniem ustaliliśmy, że : istniał stały trend; przez długi czas był zbliżony do liniowego; aw 2001 r. nastąpił nagły, trwały spadek RLE.

  • Nasz model jest uderzająco oszczędny : wymaga tylko dwóch liczb (nachylenie i punkt przecięcia), aby dokładnie opisać wczesne dane. Potrzebuje trzeciej (data przerwy, 2001), aby opisać oczywiste, ale nieoczekiwane odstępstwo od tego opisu. Nie ma wartości odstających w stosunku do tego opisu trzech parametrów. Model nie zostanie znacząco ulepszony poprzez scharakteryzowanie szeregowej korelacji (zasadniczo w technikach szeregów czasowych), próbie opisania małych indywidualnych odchyleń (reszt) wykazanych lub wprowadzenia bardziej skomplikowanych dopasowań (takich jak dodanie kwadratowego składnika czasu) lub modelowanie zmian wielkości reszt w czasie).

  • Trend wynosił 0,009 RLE rocznie . Oznacza to, że z każdym mijającym rokiem oczekiwana długość życia w kohorcie B zwiększa się o 0,009 (prawie 1%) pełnego oczekiwanego normalnego okresu życia. W trakcie badania (37 lat) wyniósłoby to 37 * 0,009 = 0,34 = jedna trzecia pełnej poprawy w ciągu całego życia. Niepowodzenie w 2001 r. Zmniejszyło ten zysk do około 0,28 pełnego okresu życia od 1972 do 2009 r. (Mimo że w tym okresie oczekiwana długość życia wzrosła o 10%).

  • Chociaż ten model mógłby zostać ulepszony, prawdopodobnie potrzebowałby więcej parametrów, a poprawa prawdopodobnie nie będzie świetna (jak potwierdza prawie losowe zachowanie resztek). Ogólnie rzecz biorąc, powinniśmy zadowalać się opracowaniem tak zwartego, użytecznego, prostego opisu danych przy tak małej pracy analitycznej.

Whuber
źródło
: gdy zidentyfikowane jednorazowe impulsy nie odgrywają żadnej roli w prognozie, a
mianowicie
2

Myślę, że odpowiedź Whubera jest prosta i prosta dla osoby, która nie jest serialem, tak jak ja, aby ją zrozumieć. Opieram moje na jego. Moja odpowiedź brzmi R nie Stata, ponieważ nie znam tak dobrze staty.

Zastanawiam się, czy pytanie w rzeczywistości nas pyta, czy absolutny wzrost rok do roku jest taki sam w obu kohortach (a nie relatywny). Myślę, że to ważne i zilustruj to następująco. Rozważ następujący przykład zabawki:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

wprowadź opis zdjęcia tutaj

Tutaj mamy 2 kohorty, z których każda ma stały roczny wzrost mediany przeżycia. Tak więc każdego roku obie kohorty w tym przykładzie wzrastają o tę samą kwotę bezwzględną, ale RLE daje następujące wartości:

rle <-  a / b
plot(rle)

wprowadź opis zdjęcia tutaj

Który ma oczywiście tendencję wzrostową i wartość p w celu przetestowania hipotezy, że gradient linii 0 wynosi 2,2e-16. Dopasowana linia prosta (zignorujmy, że ta linia wygląda na zakrzywioną) ma gradient 0,008. Więc chociaż obie kohorty mają ten sam absolutny wzrost w ciągu roku, RLE ma nachylenie w górę.

Jeśli więc użyjesz RLE, gdy chcesz poszukać absolutnych wzrostów, niewłaściwie odrzucisz hipotezę zerową.

Korzystając z dostarczonych danych, obliczając bezwzględną różnicę między kohortami, otrzymujemy: wprowadź opis zdjęcia tutaj

Co oznacza, że ​​bezwzględna różnica między medianą przeżycia stopniowo maleje (tj. Kohorta o słabym przeżyciu stopniowo zbliża się do kohorty o lepszym przeżyciu).

Andrzej
źródło
: Andrew zwróć uwagę na dwa skupiska reszt na końcu wykresu. Sugeruje to potencjalny niedobór w Twojej analizie. Niestety nawet wykwalifikowani matematycy, którzy są również wykwalifikowanymi statystykami, czasami nie są ludźmi szeregów czasowych. To, co zasugerowałem, to standardowa procedura operacyjna analizy szeregów czasowych.
IrishStat
@andrew Miła odpowiedź. Głosowałem, wierzę w twoje kwalifikacje!
Adam,
1
: Adam Dzięki za miłe słowa. Zauważysz, że skupiam się wyłącznie na problemach / pytaniach dotyczących szeregów czasowych, w których mam specjalistyczną wiedzę, ponieważ specjalizowałem się w tej dziedzinie przez ostatnie 40 lat.
IrishStat
@IrishStat to dyskursywny dotyk. Fajne doświadczenie, umieściłeś punków takich jak ja, zanim jeszcze się urodziłem.
Adam,
: Adam Cała idea polega na pomaganiu innym ludziom. Naprawdę mam nadzieję, że tak się stało. Jestem zdezorientowany słowem „punki”, ponieważ w ogóle nie mam tego uczucia. Po prostu próbuje pomóc !
IrishStat
1

Te dwa szeregi czasowe wydają się mieć tendencję deterministyczną. Jest to jedna relacja, którą oczywiście chcesz usunąć przed dalszą analizą. Osobiście postąpiłbym następująco:

1) Przeprowadziłbym regresję dla każdej serii czasowej względem stałej i czasu, i obliczyłem wartość resztkową dla każdej serii czasowej.

2) Biorąc dwie serie reszt, obliczone w powyższym kroku, przeprowadziłbym prostą regresję liniową (bez stałego składnika) i spojrzałem na statystyki t, wartość p, i zdecydowałem, czy istnieje dalsza zależność między dwie serie.

W tej analizie przyjęto ten sam zestaw założeń, co w regresji liniowej.

Lalas
źródło
: user3544 Wykonywanie regresji względem stałej w czasie jest formą odstraszania, która jest jedną z form wstępnego wybielania; różnicowanie jest inną formą wstępnego wybielania: obie są przypuszczalne, ponieważ może istnieć wiele trendów lub różne formy operatorów różnicujących. Należy zauważyć, że operator różnicujący jest szczególnym przypadkiem filtra ARIMA, który przekształca szereg w biały szum. W ogólności chce się przefiltrować X, aby hałasował (x), a następnie zastosować ten filtr do Y, aby stworzyć y (niekoniecznie biały szum) do celów identyfikacji struktury lub transferu między Y i X.
IrishStat,
: User3544 Powinienem przyklasnąć, że używasz prostych, nieskomplikowanych pojedynczych trendów, ale myślę, że czasami nie należy zakładać. Prosty trend często jest bezużyteczny, jeśli występują zmiany poziomów w serii lub istnieje szereg trendów. Testowanie hipotezy dotyczącej stałości parametrów musi być solidne i przeprowadzone tam, gdzie szuka się momentu, w którym parametry mogły się zmienić, zamiast arbitralnie wizualnie wybierać punkt za pomocą testu Chow. Powszechnie wiadomo, że niezwykłe wartości testują odchylenie w dół dla autokorelacji, dlatego należy je wykryć.
IrishStat
IrishStat: twoje oklaski zostały dobrze przyjęte i usłyszane .. :) Całkowicie zgadzam się z tobą komentarze, jednak biorąc pod uwagę fabułę dwóch seriali czasowych, pomyślałem: „Niech to będzie proste” .. :)
Lalas,
1
: user3544 Mój ulubiony cytat Einsteina brzmi: „Uczyń wszystko tak prostym, jak to możliwe, ale nie prostszym” lub przekształconym. Uczyń modele tak prostymi, jak to możliwe, ale nie prostszymi, ponieważ niektórzy uważają, że celem jest prosta, a jednocześnie może być przyczyną niedostatecznej analizy. W tym przypadku twoja sugestia wystarczyłaby, aby zidentyfikować korelację równoczesną i korelację opóźnienia między dwiema kohortami, jednocześnie oświetlając przesunięcie poziomu. Czytaj więcej: brainyquote.com/quotes/quotes/a/… .
IrishStat
0

W niektórych przypadkach zna się model teoretyczny, który można wykorzystać do przetestowania twojej hipotezy. W moim świecie ta „wiedza” jest często nieobecna i należy skorzystać z technik statystycznych, które można zaklasyfikować jako eksploracyjną analizę danych, która podsumowuje, co następuje. Analizując dane szeregów czasowych, które nie są stacjonarne, tj. Mają właściwości autokorelacyjne, proste testy korelacji krzyżowej są często wprowadzające w błąd, o ile można łatwo znaleźć fałszywe alarmy. Jedną z najwcześniejszych analiz tego zjawiska jest Yule, GU, 1926, „Dlaczego czasami otrzymujemy nonsensowne korelacje między szeregami czasowymi? Badanie próbkowania i charakter szeregów czasowych”, Journal of Royal Statistics Society 89, 1– 64 Alternatywnie, gdy jedna lub więcej z serii zostało wykonanych przez wyjątkową aktywność (patrz whuber " nagłe niepowodzenie w kohorcie B w 2001 roku), które może skutecznie ukryć znaczące relacje. Teraz wykrywanie związku między szeregami czasowymi obejmuje badanie nie tylko współczesnych związków, ale także możliwych związków opóźnionych. Kontynuując, jeśli na którąś z serii wystąpiły anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Teraz wykrywanie związku między szeregami czasowymi obejmuje badanie nie tylko współczesnych związków, ale także możliwych związków opóźnionych. Kontynuując, jeśli na którąś z serii wystąpiły anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Teraz wykrywanie związku między szeregami czasowymi obejmuje badanie nie tylko współczesnych związków, ale także możliwych związków opóźnionych. Kontynuując, jeśli na którąś z serii wystąpiły anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: jeśli na którąkolwiek z serii miały wpływ anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: jeśli na którąkolwiek z serii miały wpływ anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”:

Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

co sugeruje współczesny związek na poziomie 1,2936 i opóźniony efekt na poziomie 1,6523. Należy pamiętać, że było wiele lat, w których zidentyfikowano niezwykłą aktywność, a mianowicie. (1975 2001,1983,1999,1976,1985,1984,1991 i 1989). Korekty za lata pozwalają nam dokładniej ocenić związek między tymi dwiema seriami.

Pod względem sporządzania prognozy

MODEL WYRAŻONY JAKO XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ stała

STAŁA STRONA PRAWEJ STRONY JEST: -194,45

COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340

COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835

I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Cztery współczynniki to wszystko, co jest potrzebne do sporządzenia prognozy i oczywiście prognozy dla kohorty w okresie 39 (78,228616) uzyskanej z modelu ARIMA dla kohorty.

IrishStat
źródło
4
Dziewięć z 38 lat wykazuje „niezwykłe” działania? W modelu z (podobno) 25 parametrami ?! Coś jest nie tak z tą interpretacją. Czy oprócz tych wszystkich pulsów i przesunięcia poziomu znalazłeś jeszcze element nieliniowy w trendzie kohorty b?
whuber
2
Jakie są liczby w prawej kolumnie (3, 30, 29, 11 itd.)? Wydają się być częścią twojego opisu danych i dlatego są również parametrami. Nawet jeśli ich nie policzymy, użycie 14 parametrów do opisania 38 wartości, zwłaszcza gdy pytanie brzmi po prostu „czy jest trend?”, Wydaje się przesadne. Co do tego, jaki dokładnie jest trend? Gdzie we wszystkich tych szacunkach się go wykopuje? Gdyby lekarz podszedł do ciebie i zapytał: „ok, co osiągnięto dla pacjentów w kohorcie B od 1972 r.”, Czy mógłbyś im powiedzieć jednym, jasnym zdaniem?
whuber
2
Re „bardzo mocne przewidywanie”: być może nie rozumiem, co oznacza twój model, ale ogólnie lepsze opisy metody (szeregu czasowego lub innej), która identyfikuje jedną czwartą swoich danych jako „niezwykłą” i wymagającą „korekty” „przebudowany” i „niepotrzebnie skomplikowany”. Twoje twierdzenie o braku trendu w kohorcie B jest po prostu niesamowite.
whuber
2
@Adam, ponieważ ta analiza zasadniczo ignoruje informacje o zmienności zawarte w 10 „pulsach”, wszelkie przedziały prognostyczne, które umieszcza wokół prognoz, będą wysoce nadmiernie optymistyczne (zbyt ciasne). Co więcej, głębsza analiza, która obejmuje wszystkie dane (w przeciwieństwie do mojej analizy ilustracyjnej, która obejmuje tylko pierwszą połowę) wykryje element nieliniowy zgodny z niewielkim spadkiem trendu, który również nie został tutaj wykryty. Ważniejsze niż prognozowanie jest zrozumienie efektu z lat 2000–2001: jeśli można go powtórzyć, prawdopodobnie wszystkie prognozy są błędne.
whuber
1
@ Whuber Wprawdzie nie znam całego technicznego żargonu, ale twoje wyjaśnienie ma sens. Wielkie dzięki.
Adam,
-1

Ta odpowiedź zawierała trochę grafiki resztki z przydatnego modelu! [] [1]

aktualne oczyszczone z interwencjiacf reszt modelowychwprowadź opis zdjęcia tutaj dopasowanie i prognoza CohortB Rezydenci z modelurzeczywiste dopasowanie i prognoza

IrishStat
źródło