Jakie statystyki są przechowywane w ramach agregacji?

12

Jeśli mamy długi szereg czasowy o wysokiej rozdzielczości, z dużym hałasem, często sensowne jest agregowanie danych do niższej rozdzielczości (np. Wartości dzienne do miesięcznych), aby lepiej zrozumieć, co się dzieje, skutecznie usuwając niektóre z hałas.

Widziałem co najmniej jeden artykuł, który stosuje pewne statystyki do danych zagregowanych, w tym dla regresji liniowej na osobnej zmiennej. Czy to jest ważne? Myślałem, że proces uśredniania nieco zmodyfikuje wynik z powodu zmniejszonego hałasu.r2

Ogólnie rzecz biorąc, czy niektóre statystyki można zastosować do zagregowanych danych szeregów czasowych, a inne nie? Jeśli tak, które? Może są to kombinacje liniowe?

naught101
źródło
Powiązane, zobacz błąd ekologiczny .
Andy W
1
odnośnie komentarza @cbeleites, myślę, że istnieje tutaj teoretyczna odpowiedź - rozwinięcie twojej sugestii, że kombinacje liniowe są zachowane. Jednak w praktycznych zastosowaniach bardzo trudno jest wyciągnąć ogólny wniosek na temat zasadności podejścia i należałoby podać konkretny przykład.
Jonathan

Odpowiedzi:

6

Myślę, że pytanie jak w tytule jest zbyt ogólne, aby można było na nie odpowiedzieć w przydatny sposób, tym bardziej, że prawdopodobnie będzie ono zależeć zarówno od metody agregacji, jak i od danych statystycznych.

  • Odnosi się to nawet do „średniej”: czy starasz się zachować kształt i intensywność sygnału (np. Filtry Savitzky-Golay), czy starasz się zachować obszar pod sygnałem (np. Less)?

  • Oczywiście wpływa to na statystyki związane z hałasem: taki jest zwykle cel agregacji.

Widziałem co najmniej jeden artykuł, który stosuje pewne statystyki do danych zagregowanych [...] Czy to jest poprawne? Myślałem, że proces uśredniania nieco zmodyfikuje wynik z powodu zmniejszonego hałasu.

Ta modyfikacja jest najprawdopodobniej celem agregacji.

Zasadniczo możesz robić wiele rzeczy na swoich danych, ale musisz

  • powiedz, co robisz (a najlepiej, dlaczego to robisz)
  • pokaż jakość uzyskanego modelu (test z niezależnymi danymi)

To, co jest prawidłową agregacją, będzie również zależeć od Twojej aplikacji.
Np .: Pracuję z danymi spektroskopowymi. Bardzo często agreguje się pojedyncze widma w średnie widma: proces pomiaru oznacza pewne ograniczenia jakości widm, które mogę uzyskać „jednym ujęciem”. Jednak dla wielu zastosowań jest całkowicie poprawny określić procedurę przejęcia, która mówi, że zawsze powtarzane pomiary powinny być wykonane i uśrednione. Z drugiej strony, jeśli aplikacja jest analityką w czasie rzeczywistym / online lub wbudowaną, taką jak FIA (analiza wtrysku przepływowego), oznacza to ograniczenia dotyczące możliwych schematów agregacji.n

cbeleites niezadowoleni z SX
źródło
5

W ustawieniu regresji można faktycznie sprawdzić, czy prosta agregacja jest właściwym wyborem. Załóżmy, że mamy dane miesięczne i danych dziennych (ze stałymi dni w miesiącu). Załóżmy, że interesuje Cię regresja:X τ mYtXτm

Yt=α+βX¯t+ut,(1)

gdzie

X¯t=1mh=0m1Xtmh.

Zakładamy, że dla każdego miesiąca codzienne obserwacje wynoszą . W tym przypadku przyjęliśmy, że każdy dzień ma taką samą wagę, co wyraźnie stanowi ograniczenie. Możemy więc założyć, że bardziej ogólny model obejmuje:X 30 ( T - 1 ) + 1 , . . . , X 30 ttX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

z

Xt(w)=h=1m1whXtmh.

Istnieje wiele artykułów, które eksplorują różne możliwe opcje . Zwykle przyjmuje się, że , dla pewnej funkcji która zależy od parametrów . Ten typ modelu regresji nazywany jest regresją MIDAS (mieszanie próbek DAta).w h = g ( h ,whg αwh=g(h,α)gα

Model (2) zagnieżdża model (1), więc można przetestować hipotezę, że . Jeden z takich testów jest proponowany w tym artykule (jestem jednym z autorów, przepraszam za bezwstydną wtyczkę, napisałem również pakiet R midasr do szacowania i testowania regresji MIDAS, w których ten test jest zaimplementowany).wh=1m

W ustawieniach nieregresyjnych istnieją wyniki, które pokazują, że agregacja może zmienić właściwości szeregów czasowych. Na przykład, jeśli agregujesz procesy AR (1), które mają pamięć krótkotrwałą (korelacja między dwoma obserwacjami szeregów czasowych szybko zanika, gdy zwiększa się odległość między nimi), możesz uzyskać proces z pamięcią długoterminową.

Podsumowując, odpowiedź jest taka, że ​​ważność zastosowania statystyki do danych zagregowanych jest pytaniem statystycznym. W zależności od modelu możesz zbudować hipotezę, czy jest to poprawna aplikacja, czy nie.

mpiktas
źródło