Na jakie problemy należy zwrócić uwagę przy łączeniu wielu szeregów czasowych?

10

Powiedzmy, że mam szereg szeregów czasowych, np. Kilka rekordów temperatury z różnych stacji w regionie. Chcę uzyskać pojedynczy rekord temperatury dla całego regionu, z którym mógłbym opisać aspekty klimatu regionalnego. Intuicyjnym podejściem może być po prostu uśrednianie wszystkich stacji w każdym czasie, ale mój statystyczny zmysł pająka (z którym zdecydowanie nie jestem jeszcze w kontakcie) mówi mi, że może to nie być takie łatwe. W szczególności wyobrażam sobie, że uśrednianie dla całego regionu usunie niektóre z interesujących ekstremów temperaturowych i mogę mieć problemy z zależnością między bliskimi stacjami.

Z jakimi innymi problemami mogę się spotkać, gdy wypróbuję taką strategię i czy istnieją sposoby na ich przezwyciężenie lub bardziej rozsądne metody łączenia tego rodzaju danych?

Uwaga: odpowiedzi mogą być bardziej ogólne niż podany przykład przestrzenny.

naught101
źródło
1
Problemem może być konflikt między „pojedynczym zapisem temperatury dla całego regionu” a jakimkolwiek zainteresowaniem związanym ze zmianami wewnątrz regionu. Rozwiązanie może obejmować jakiś sposób pogodzenia tych dwóch problemów, np. Dzielenie wariancji na komponenty wewnątrz- i międzyregionalne.
Peter Ellis,
@PeterEllis, tak, niejasno o tym myślałem. Na potrzeby pytania załóżmy, że nie dbam o wewnątrzregionalną zmienność przestrzenną.
naught101
w takim przypadku myślę, że najważniejszą rzeczą, o którą musisz się martwić, jest zależność między bliskimi stacjami. Znajdź sposób na obalenie obserwacji, które skutecznie powielają stację obok, i powinieneś być w porządku.
Peter Ellis,
@PeterEllis: ok, ale może nie istnieć rozsądny fizyczny sposób - bliskość stacji niekoniecznie oznacza, że ​​są one bardziej zależne - tj. dwie bliskie stacje po przeciwnych stronach pasma górskiego mogą być mniej podobne niż dwie odległe stacje na szerokiej równinie. Czy istnieje wiarygodny sposób statystycznego zdefiniowania zależności? Przypuszczam, że kowariancja ... W wynikowej serii nadal prawdopodobnie będzie mniej pików (wydaje mi się, że to odzwierciedla sytuację fizyczną - zmiany temperatury w szerokim regionie mogą być wolniejsze i bardziej stabilne niż w jednym miejscu).
naught101
@naught, jeśli chodzi o aspekt przestrzenny pytania, w jaki sposób zdefiniowane są twoje regiony? W swoim komentarzu wspominasz, że dwie bliskie stacje po przeciwnych stronach góry mogą różnić się od dwóch odległych stacji na szerokiej równinie. Czy rozważałeś ponowne zdefiniowanie regionów stacji na podstawie bliskości i podobieństwa w swojej analizie? Nie musiałyby one koniecznie odpowiadać konwencjonalnym granicom regionalnym. Zamiast tego mogą stać się analityczną nakładką, którą można narysować na tradycyjnej mapie.
dav

Odpowiedzi:

1

Po pierwsze, chciałbym powiedzieć, że dodam komentarz, ale nie mogę tego jeszcze zrobić (rep), ale podoba mi się pytanie i chciałem wziąć udział, więc oto „odpowiedź”. Widzę też, że jest stary, ale interesujący.

Po pierwsze, czy byłoby możliwe zastosowanie techniki redukcji wymiarów, takiej jak PCA, do skondensowania szeregów czasowych? Jeśli pierwsza wartość własna jest duża, być może oznacza to, że użycie wektora własnego reprezentowałoby większość dynamiki.

Po drugie, i bardziej ogólnie, jakie jest twoje pożądane wykorzystanie szeregów czasowych? Nie wiedząc wiele więcej, zgaduję, że temperatury mogą się znacznie różnić. Na przykład, jeśli niektóre zapisy temperatury znajdują się w pobliżu miast, można uzyskać efekt typu „wyspa ciepła”. A może mała zmiana odległości bocznej powoduje dużą zmianę odległości pionowej - jedno miejsce może znajdować się na poziomie morza i tuż nad oceanem, a drugie nie „za daleko”, ale na wysokości jednego kilometra. Te z pewnością miałyby różne temperatury!

To tylko niektóre przemyślenia. Może ktoś inny mógłby wskoczyć i dać lepszą odpowiedź.

rbatt
źródło
1
Słuszna uwaga. Szczerze mówiąc, nie pamiętam, jaki był kontekst tego pytania i mam wrażenie, że moje komentarze były mylące. Byłem szczególnie zainteresowany nie traceniem zmienności wspólnej dla wszystkich stacji, ale poza fazą. Pomyśl o stacjach na całym kontynencie i przechodzącym przez nie zimnym froncie. Prosta średnia przestrzenna może zasadniczo usunąć zimny front, co nie jest tak naprawdę dobrą rzeczą, ponieważ każda stacja pokazałaby go silnie, ale w innym czasie. Prawdopodobnie uruchomienie jakiegoś PCA na każdej stacji, a następnie uśrednienie wyników może być sposobem na obejście tego.
naught101
O wow, ok, więc jeśli próbujesz scharakteryzować trend w szeregach czasowych w całym regionie, być może powinieneś ustawić szereg czasowy na stacjonarnym, a każdy ze średnią 0. Możesz także spróbować usunąć cykl dzienny z każdy (lub po prostu przyjmuj średnie dzienne). Wtedy pozostałyby zmiany temperatury o niższej częstotliwości, z których każda była wyśrodkowana wokół średniej 0. Gdy to osiągniesz, być może możesz skondensować wyśrodkowane i stacjonarne szeregi czasowe przy użyciu techniki redukcji wymiarów, takiej jak PCA. Cieszę się, że mówiłeś trochę o kontekście pytania, czarno-białe, które naprawdę pomaga. Dobry towar!
rbatt