Mam dwie serie danych, które przedstawiają medianę wieku w chwili śmierci. Obie serie wykazują z czasem większy wiek śmierci, ale jedna jest znacznie niższa od drugiej. Chcę ustalić, czy wzrost wieku w chwili śmierci dolnej próbki jest znacząco różny od wzrostu górnej próbki.
Oto dane uporządkowane według roku (od 1972 r. Do 2009 r. Włącznie) w zaokrągleniu do trzech miejsc po przecinku:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Obie serie są niestacjonarne - jak mogę je porównać? Używam STATA. Wszelkie porady będą wdzięczne.
time-series
correlation
stata
Matt Hurley
źródło
źródło
Odpowiedzi:
To jest prosta sytuacja; niech tak pozostanie. Kluczem jest skupienie się na tym, co ważne:
Uzyskanie przydatnego opisu danych.
Ocena indywidualnych odchyleń od tego opisu.
Ocena możliwej roli i wpływu przypadku w interpretacji.
Utrzymanie integralności intelektualnej i przejrzystości.
Nadal istnieje wiele wyborów, a wiele form analizy będzie poprawnych i skutecznych. Zilustrujmy tutaj jedno podejście, które można zalecić ze względu na przestrzeganie tych kluczowych zasad.
Aby zachować integralność, podzielmy dane na połowy: obserwacje z lat 1972–1990 i te z lat 1991–2009 (każda po 19 lat). Dopasujemy modele do pierwszej połowy, a następnie zobaczymy, jak dobrze pasują do projekcji drugiej połowy. Ma to tę dodatkową zaletę, że wykrywa znaczące zmiany, które mogły wystąpić w drugiej połowie.
Aby uzyskać użyteczny opis, musimy (a) znaleźć sposób pomiaru zmian i (b) dopasować najprostszy możliwy model odpowiedni dla tych zmian, ocenić go i iteracyjnie dopasować bardziej złożone, aby uwzględnić odchylenia od prostych modeli.
(a) Masz wiele możliwości: możesz spojrzeć na surowe dane; możesz spojrzeć na ich roczne różnice; możesz zrobić to samo z logarytmami (aby ocenić zmiany względne); możesz ocenić lata utraty życia lub względną długość życia (RLE); lub wiele innych rzeczy. Po namyśle postanowiłem rozważyć RLE, zdefiniowane jako stosunek oczekiwanej długości życia w kohorcie B w stosunku do (referencyjnej) kohorty A. Na szczęście, jak pokazują wykresy, oczekiwana długość życia w kohorcie A regularnie rośnie w stabilnym mody w czasie, tak że większość losowo wyglądających zmian w RLE będzie spowodowana zmianami w kohorcie B.
(b) Najprostszym możliwym modelem na początek jest trend liniowy. Zobaczmy, jak to działa.
Ciemnoniebieskie punkty na tym wykresie to dane zachowane do dopasowania; punkty jasnozłote są kolejnymi danymi, nieużytymi do dopasowania. Czarna linia jest dopasowana, ze spadkiem 0,009 / rok. Linie przerywane to przedziały prognoz dla poszczególnych przyszłych wartości.
Ogólnie rzecz biorąc, dopasowanie wygląda dobrze: badanie pozostałości (patrz poniżej) nie wykazuje istotnych zmian w ich rozmiarach w czasie (w okresie danych 1972–1990). (Istnieją pewne oznaki, że były one większe na wczesnym etapie, kiedy oczekiwane życie było niskie. Moglibyśmy poradzić sobie z tym powikłaniem, poświęcając trochę prostoty, ale korzyści z oszacowania trendu raczej nie będą świetne.) Jest tylko najmniejsza wskazówka korelacji szeregowej (wykazywanej przez niektóre serie dodatnich i serie ujemnych reszt), ale najwyraźniej nie jest to ważne. Nie ma wartości odstających, na które wskazywałyby punkty poza przedziałami prognozowania.
Jedną niespodzianką jest to, że w 2001 r. Wartości nagle spadły do niższego przedziału prognozy i pozostały tam: stało się coś dość nagłego i dużego.
Oto reszty, które są odchyleniami od wspomnianego wcześniej opisu.
Ponieważ chcemy porównać reszty do 0, linie pionowe są rysowane do poziomu zerowego jako pomoc wizualna. Ponownie niebieskie punkty pokazują dane użyte do dopasowania. Jasnozłote są pozostałością danych spadających w pobliżu dolnej granicy prognozy po 2000 r.
Na podstawie tej liczby możemy oszacować, że efekt zmiany w latach 2000-2001 wyniósł około -0,07 . Odzwierciedla to nagły spadek o 0,07 (7%) pełnego okresu życia w kohorcie B. Po tym spadku poziomy wzorzec reszt wskazuje, że poprzedni trend trwał, ale na nowym niższym poziomie. Ta część analizy powinna zostać uznana za eksploracyjną : nie została specjalnie zaplanowana, ale wynikała z zaskakującego porównania między przetrzymywanymi danymi (1991–2009) a dopasowaniem do reszty danych.
Jeszcze jedno - nawet przy użyciu tylko 19 najwcześniejszych lat danych, standardowy błąd nachylenia jest niewielki: to tylko 0,0009, zaledwie jedna dziesiąta szacowanej wartości 0,009. Odpowiednia statystyka t wynosząca 10, z 17 stopniami swobody, jest niezwykle znacząca (wartość p jest mniejsza niż ); to znaczy, możemy być pewni, że ten trend nie wynika z przypadku. Jest to jedna z części naszej oceny roli przypadku w analizie. Pozostałe części to badania pozostałości.10−7
Wydaje się, że nie ma powodu, aby dopasować bardziej skomplikowany model do tych danych, przynajmniej nie w celu oszacowania, czy istnieje prawdziwy trend w RLE w czasie: jest taki. Moglibyśmy pójść dalej i podzielić dane na wartości sprzed 2001 r. I wartości po 2000 r. W celu dopracowania naszych szacunkówtrendów, ale przeprowadzanie testów hipotez nie byłoby całkowicie uczciwe. Wartości p byłyby sztucznie niskie, ponieważ testy podziału nie były wcześniej planowane. Ale jako ćwiczenie eksploracyjne takie oszacowanie jest w porządku. Dowiedz się wszystkiego, co możesz na podstawie danych! Uważaj tylko, aby nie oszukać siebie w przypadku nadmiernego dopasowania (co jest prawie pewne, że użyjesz więcej niż pół tuzina parametrów lub zastosujesz techniki automatycznego dopasowywania) lub szpiegowania danych: bądź czujny na różnicę między formalnym potwierdzeniem a nieformalnym (ale cenne) eksploracja danych.
Podsumujmy:
Wybierając odpowiednią miarę oczekiwanej długości życia (RLE), utrzymując połowę danych, dopasowując prosty model i testując ten model pod kątem pozostałych danych, z dużym przekonaniem ustaliliśmy, że : istniał stały trend; przez długi czas był zbliżony do liniowego; aw 2001 r. nastąpił nagły, trwały spadek RLE.
Nasz model jest uderzająco oszczędny : wymaga tylko dwóch liczb (nachylenie i punkt przecięcia), aby dokładnie opisać wczesne dane. Potrzebuje trzeciej (data przerwy, 2001), aby opisać oczywiste, ale nieoczekiwane odstępstwo od tego opisu. Nie ma wartości odstających w stosunku do tego opisu trzech parametrów. Model nie zostanie znacząco ulepszony poprzez scharakteryzowanie szeregowej korelacji (zasadniczo w technikach szeregów czasowych), próbie opisania małych indywidualnych odchyleń (reszt) wykazanych lub wprowadzenia bardziej skomplikowanych dopasowań (takich jak dodanie kwadratowego składnika czasu) lub modelowanie zmian wielkości reszt w czasie).
Trend wynosił 0,009 RLE rocznie . Oznacza to, że z każdym mijającym rokiem oczekiwana długość życia w kohorcie B zwiększa się o 0,009 (prawie 1%) pełnego oczekiwanego normalnego okresu życia. W trakcie badania (37 lat) wyniósłoby to 37 * 0,009 = 0,34 = jedna trzecia pełnej poprawy w ciągu całego życia. Niepowodzenie w 2001 r. Zmniejszyło ten zysk do około 0,28 pełnego okresu życia od 1972 do 2009 r. (Mimo że w tym okresie oczekiwana długość życia wzrosła o 10%).
Chociaż ten model mógłby zostać ulepszony, prawdopodobnie potrzebowałby więcej parametrów, a poprawa prawdopodobnie nie będzie świetna (jak potwierdza prawie losowe zachowanie resztek). Ogólnie rzecz biorąc, powinniśmy zadowalać się opracowaniem tak zwartego, użytecznego, prostego opisu danych przy tak małej pracy analitycznej.
źródło
Myślę, że odpowiedź Whubera jest prosta i prosta dla osoby, która nie jest serialem, tak jak ja, aby ją zrozumieć. Opieram moje na jego. Moja odpowiedź brzmi R nie Stata, ponieważ nie znam tak dobrze staty.
Zastanawiam się, czy pytanie w rzeczywistości nas pyta, czy absolutny wzrost rok do roku jest taki sam w obu kohortach (a nie relatywny). Myślę, że to ważne i zilustruj to następująco. Rozważ następujący przykład zabawki:
Tutaj mamy 2 kohorty, z których każda ma stały roczny wzrost mediany przeżycia. Tak więc każdego roku obie kohorty w tym przykładzie wzrastają o tę samą kwotę bezwzględną, ale RLE daje następujące wartości:
Który ma oczywiście tendencję wzrostową i wartość p w celu przetestowania hipotezy, że gradient linii 0 wynosi 2,2e-16. Dopasowana linia prosta (zignorujmy, że ta linia wygląda na zakrzywioną) ma gradient 0,008. Więc chociaż obie kohorty mają ten sam absolutny wzrost w ciągu roku, RLE ma nachylenie w górę.
Jeśli więc użyjesz RLE, gdy chcesz poszukać absolutnych wzrostów, niewłaściwie odrzucisz hipotezę zerową.
Korzystając z dostarczonych danych, obliczając bezwzględną różnicę między kohortami, otrzymujemy:
Co oznacza, że bezwzględna różnica między medianą przeżycia stopniowo maleje (tj. Kohorta o słabym przeżyciu stopniowo zbliża się do kohorty o lepszym przeżyciu).
źródło
Te dwa szeregi czasowe wydają się mieć tendencję deterministyczną. Jest to jedna relacja, którą oczywiście chcesz usunąć przed dalszą analizą. Osobiście postąpiłbym następująco:
1) Przeprowadziłbym regresję dla każdej serii czasowej względem stałej i czasu, i obliczyłem wartość resztkową dla każdej serii czasowej.
2) Biorąc dwie serie reszt, obliczone w powyższym kroku, przeprowadziłbym prostą regresję liniową (bez stałego składnika) i spojrzałem na statystyki t, wartość p, i zdecydowałem, czy istnieje dalsza zależność między dwie serie.
W tej analizie przyjęto ten sam zestaw założeń, co w regresji liniowej.
źródło
W niektórych przypadkach zna się model teoretyczny, który można wykorzystać do przetestowania twojej hipotezy. W moim świecie ta „wiedza” jest często nieobecna i należy skorzystać z technik statystycznych, które można zaklasyfikować jako eksploracyjną analizę danych, która podsumowuje, co następuje. Analizując dane szeregów czasowych, które nie są stacjonarne, tj. Mają właściwości autokorelacyjne, proste testy korelacji krzyżowej są często wprowadzające w błąd, o ile można łatwo znaleźć fałszywe alarmy. Jedną z najwcześniejszych analiz tego zjawiska jest Yule, GU, 1926, „Dlaczego czasami otrzymujemy nonsensowne korelacje między szeregami czasowymi? Badanie próbkowania i charakter szeregów czasowych”, Journal of Royal Statistics Society 89, 1– 64 Alternatywnie, gdy jedna lub więcej z serii zostało wykonanych przez wyjątkową aktywność (patrz whuber " nagłe niepowodzenie w kohorcie B w 2001 roku), które może skutecznie ukryć znaczące relacje. Teraz wykrywanie związku między szeregami czasowymi obejmuje badanie nie tylko współczesnych związków, ale także możliwych związków opóźnionych. Kontynuując, jeśli na którąś z serii wystąpiły anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Teraz wykrywanie związku między szeregami czasowymi obejmuje badanie nie tylko współczesnych związków, ale także możliwych związków opóźnionych. Kontynuując, jeśli na którąś z serii wystąpiły anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Teraz wykrywanie związku między szeregami czasowymi obejmuje badanie nie tylko współczesnych związków, ale także możliwych związków opóźnionych. Kontynuując, jeśli na którąś z serii wystąpiły anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: jeśli na którąkolwiek z serii miały wpływ anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: jeśli na którąkolwiek z serii miały wpływ anomalie (zdarzenia jednorazowe), musimy wzmocnić naszą analizę, dostosowując się do tych jednorazowych zniekształceń. Literatura szeregów czasowych wskazuje, jak rozpoznać związek za pomocą wstępnego wybielania w celu wyraźniejszej identyfikacji struktury. Wstępne wybielanie dostosowuje strukturę wewnątrz korelacyjną przed zidentyfikowaniem struktury między korelacyjnej. Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”: Zauważ, że słowo kluczowe oznaczało strukturę. Takie podejście z łatwością prowadzi do następującego „użytecznego modelu”:
Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA
co sugeruje współczesny związek na poziomie 1,2936 i opóźniony efekt na poziomie 1,6523. Należy pamiętać, że było wiele lat, w których zidentyfikowano niezwykłą aktywność, a mianowicie. (1975 2001,1983,1999,1976,1985,1984,1991 i 1989). Korekty za lata pozwalają nam dokładniej ocenić związek między tymi dwiema seriami.
Pod względem sporządzania prognozy
MODEL WYRAŻONY JAKO XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ stała
STAŁA STRONA PRAWEJ STRONY JEST: -194,45
COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340
COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835
I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963
Cztery współczynniki to wszystko, co jest potrzebne do sporządzenia prognozy i oczywiście prognozy dla kohorty w okresie 39 (78,228616) uzyskanej z modelu ARIMA dla kohorty.
źródło
Ta odpowiedź zawierała trochę grafiki
źródło