Jak grupować szeregi czasowe?

22

Mam pytanie dotyczące analizy skupień. Istnieje 3000 firm, które muszą być grupowane w zależności od zużycia energii przez 5 lat. Każda firma ma wartości dla każdej godziny przez 5 lat. Chciałbym dowiedzieć się, czy niektóre firmy mają taki sam wzorzec mocy użytkowej w danym okresie. Wyniki należy wykorzystać do codziennego prognozowania zużycia energii. Jeśli masz jakieś pomysły, jak grupować szeregi czasowe w SPSS, podziel się ze mną.

użytkownik89686
źródło
1
Sugeruję sprawdzenie powiązanych linków po prawej stronie strony. Istnieje kilka pytań o bardzo podobnej naturze, patrz Czy możliwe jest grupowanie szeregów czasowych na podstawie kształtu krzywej? oraz Modelowanie danych podłużnych, w których wpływ czasu zmienia się w formie funkcjonalnej między osobnikami tylko dla dwóch przykładów.
Andy W
Proc Podobieństwo w SAS może grupować szeregi czasowe.
przepowiednia

Odpowiedzi:

11

A) Poświęć dużo czasu na wstępne przetwarzanie danych. Przetwarzanie wstępne stanowi 90% twojej pracy.

B) Wybierz odpowiednią miarę podobieństwa dla szeregów czasowych. Na przykład dobrym rozwiązaniem może być przekroczenie progu. Prawdopodobnie nie będziesz potrzebować dynamicznej odległości dopasowania czasu, chyba że masz inne strefy czasowe. Przekraczanie progów może być bardziej odpowiednie do wykrywania wzorców czasowych, nie zwracając jednak uwagi na rzeczywistą wielkość (która prawdopodobnie będzie bardzo różna w zależności od firmy).

C) Klaster powstałej macierzy dyssimlarity przy użyciu metod takich jak klastrowanie hierarchiczne lub DBSCAN, które mogą pracować z dowolnymi funkcjami odległości.

Anony-Mus-Przywróć Monikę
źródło
czy możesz wyjaśnić, dlaczego dystans dynamicznego dopasowania czasu nie jest dobrą opcją dla grupowania szeregów czasowych?
Hardik Gupta,
To nie było ogólne stwierdzenie. To, czy jest dobre, czy nie, zależy od tego, czy chcesz pozwolić na dopasowanie czasu, czy nie.
Anony-Mus-Przywróć Monikę
7

Warto przyjrzeć się szeregom godzinowym prognozowania z częstotliwością dzienną, tygodniową i rocznądo dyskusji danych godzinowych obejmujących dane dzienne i dni wolne / regresory. Masz 5 lat danych, podczas gdy druga dyskusja obejmowała 883 wartości dziennych. Sugeruję, abyś mógł zbudować prognozę godzinową obejmującą regresory, takie jak dzień tygodnia; tydzień w roku i dni wolne od pracy, wykorzystując sumy dzienne jako dodatkowy predyktor. W ten sposób miałbyś 24 modele dla każdej z 3000 firm. Teraz chcesz zrobić według godziny, oszacuj 3000 modeli za pomocą wspólnej struktury ARIMAX uwzględniającej wzorzec reakcji wokół każdego z regresorów, dnia tygodnia, zmian dnia tygodnia parametry i tygodniowe wskaźniki przy izolowaniu wartości odstających. Następnie możesz oszacować parametry globalnie, korzystając ze wszystkich 3000 firm. Wykonaj test Chow http://en.wikipedia.org/wiki/Chow_testze względu na stałość parametrów i po odrzuceniu grupują firmy w jednorodne grupy. Odniosłem się do tego jako do analizy skupień jednowymiarowych. Ponieważ SPSS ma bardzo ograniczone możliwości w szeregach czasowych, możesz poszukać oprogramowania w innym miejscu.

IrishStat
źródło
1
„wanilia” wydaje się dziwnym słowem do użycia na temat R; niejasne w tłumaczeniu w bardziej typowej terminologii R. Żadne rozróżnienie między bazowym R a dodatkowymi pakietami CRAN naprawdę nie gryzie doświadczonych użytkowników, a nawet początkujących, ponieważ są one równie bezpłatne i jednakowo dostępne. Mam wrażenie, że ktoś, kto miał dostęp do SPSS, może dość łatwo powiedzieć, że coś nie jest obecnie możliwe w SPSS bez programowania; powiedzieć to samo o R wymaga znajomości wszystkich pakietów szeregów czasowych.
Nick Cox,