Analiza szeregów czasowych z wieloma wartościami zerowymi

19

Ten problem dotyczy w zasadzie wykrywania pożaru, ale jest ściśle analogiczny do niektórych problemów z wykrywaniem rozpadu radioaktywnego. Obserwowane zjawiska są zarówno sporadyczne, jak i bardzo zmienne; dlatego szereg czasowy będzie się składał z długich ciągów zer zerowanych wartościami zmiennymi.

Celem jest nie tylko przechwytywanie zdarzeń (łamanie zer), ale ilościowa charakterystyka samych zdarzeń. Jednak czujniki są ograniczone i dlatego czasami rejestrują zero, nawet jeśli „rzeczywistość” jest różna od zera. Z tego powodu podczas porównywania czujników należy podać zera.

Czujnik B może być bardziej czuły niż czujnik A i chciałbym móc to statystycznie opisać. Do tej analizy nie mam „prawdy”, ale mam czujnik C, który jest niezależny od czujników A&B. Zatem oczekuję, że lepsza zgodność między A / B i C wskazuje na lepszą zgodność z „prawdą”. (To może wydawać się niepewne, ale musisz mi zaufać - jestem tutaj na solidnym gruncie, w oparciu o to, co wiadomo z innych badań na temat czujników).

Problem polega na tym, jak określić ilościowo „lepszą zgodność szeregów czasowych”. Korelacja jest oczywistym wyborem, ale wpływ na nią będą te wszystkie zera (których nie można pominąć) i oczywiście nieproporcjonalnie na maksymalne wartości. Można również obliczyć RMSE, ale byłby silnie obciążony zachowaniem czujników w przypadku bliskiego zera.

P1: Jaki jest najlepszy sposób zastosowania skalowania logarytmicznego do wartości niezerowych, które następnie zostaną połączone z zerami w analizie szeregów czasowych?

Q2: Jakie „najlepsze praktyki” możesz zalecić do analizy szeregów czasowych tego rodzaju, w której koncentruje się zachowanie przy wartościach niezerowych, ale dominują wartości zerowe i nie można ich wykluczyć?

Ed Hyer
źródło

Odpowiedzi:

11

Aby ponownie sformułować pytanie „Jak analityk radzi sobie z długimi okresami braku zapotrzebowania, które nie są zgodne z określonym schematem?”

Odpowiedź na twoje pytanie to przerywana analiza popytu lub analiza danych rzadkich. Występuje to zwykle, gdy masz „dużo zer” w stosunku do liczby niezerowych. Problem polega na tym, że istnieją dwie losowe zmienne; czas między zdarzeniami i oczekiwany rozmiar zdarzenia. Jak powiedziałeś, autokorelacja (acf) pełnego zestawu odczytów jest bez znaczenia ze względu na sekwencję zer fałszywie wzmacniającą acf. Możesz dążyć do wątków takich jak „metoda Crostonsa”, która jest procedurą opartą na modelu, a nie procedurą opartą na danych. Metoda Croston jest wrażliwa na wartości odstające i zmiany / trendy / zmiany poziomu tempa popytu, tj. Popytu podzielonego przez liczbę okresy od ostatniego żądania. O wiele bardziej rygorystycznym podejściem może być realizacja „danych rzadkich - dane nierówno rozstawione” lub podobnych wyszukiwań. Raczej pomysłowe rozwiązanie zaproponował mi prof. Ramesh Sharda z OSU i korzystam z niego od wielu lat w mojej praktyce konsultingowej. Jeśli seria ma punkty czasowe, w których występuje sprzedaż i długie okresy, w których nie występuje sprzedaż, możliwe jest przekształcenie sprzedaży w sprzedaż na okres, dzieląc obserwowaną sprzedaż przez liczbę okresów braku sprzedaży, uzyskując w ten sposób stawkę. Następnie można zidentyfikować model między stawką a przedziałem między sprzedażą, którego kulminacją jest prognozowana stawka i prognozowany przedział. Możesz dowiedzieć się więcej na ten temat na stronie autobox.com i w Google „przerywany popyt” Jeżeli seria ma punkty czasowe, w których występuje sprzedaż, i długie okresy, w których nie występuje sprzedaż, można przekształcić sprzedaż w sprzedaż na okres, dzieląc obserwowaną sprzedaż przez liczbę okresów braku sprzedaży, uzyskując w ten sposób stawkę. Następnie można zidentyfikować model między stawką a przedziałem między sprzedażą, którego kulminacją jest prognozowana stawka i prognozowany przedział. Możesz dowiedzieć się więcej na ten temat na stronie autobox.com i w Google „przerywany popyt” Jeżeli seria ma punkty czasowe, w których występuje sprzedaż, i długie okresy, w których nie występuje sprzedaż, można przekształcić sprzedaż w sprzedaż na okres, dzieląc obserwowaną sprzedaż przez liczbę okresów braku sprzedaży, uzyskując w ten sposób stawkę. Następnie można zidentyfikować model między stawką a przedziałem między sprzedażą, którego kulminacją jest prognozowana stawka i prognozowany przedział. Możesz dowiedzieć się więcej na ten temat na stronie autobox.com i w Google „przerywany popyt”

IrishStat
źródło
1
Mam problem z prognozowaniem przy sporadycznym popycie. Zostałem poproszony o rozwiązanie. Wiem, że istnieje kilka programów specyficznych dla tego czasu prognozowania, ale nie są one bezpłatne. Czy możesz mi powiedzieć, czy znasz jakieś wbudowane funkcje oprogramowania typu open source (na przykład R), aby rozwiązać ten problem? Szukałem, ale jak dotąd nie mogłem go znaleźć ... Dzięki!
Assu
1
@assu: Nie znam żadnego wolnego oprogramowania, które spełnia Twoje potrzeby.
IrishStat
4
@assu. croston()Funkcja w forecastpakiecie R będzie realizować w sposób Croston dla danych prognozowanie popytu przerywanych.
Rob Hyndman