Czytałem więc o proroku na Facebooku, że dzieli on szereg czasowy na trendy i sezonowość. Na przykład model addytywny zostałby zapisany jako:
z
- godzinę
- trend (może być liniowy lub logistyczny)
- sezonowość (codziennie, co tydzień, co rok ...)
- święta
- błąd
Moje pytania brzmią: czy nie można tego zrobić za pomocą prostej regresji liniowej? Jakie byłyby różnice w zakresie wyników, gdybyśmy je porównali i dlaczego?
Odpowiedzi:
Problem polega na tym, aby uzyskać równanie, które analizuje obserwowane dane na sygnał i szum. Jeśli dane są proste, podejście regresji może działać. Należy dołożyć starań, aby zrozumieć niektóre z założeń, które przyjmują z Prorokiem. Powinieneś lepiej zrozumieć, co robi Prorok, ponieważ nie tylko pasuje do prostego modelu, ale próbuje dodać jakąś strukturę.
Na przykład niektóre refleksje, które poczyniłem po przeczytaniu ich dobrze napisanego wprowadzenia, mogą pomóc w ocenie. Z góry przepraszam, jeśli źle zrozumiałem ich podejście, i jeśli tak, to chciałbym je poprawić.
1) Ich wiodący przykład ma dwa punkty wytrzymałości, ale zdobył tylko najbardziej oczywisty.
2) Ignorują każdą strukturę ARIMA odzwierciedlającą pominięte szeregi stochastyczne lub wartość wykorzystania historycznych wartości Y do kierowania prognozą.
3) Ignorują wszelkie możliwe dynamiki (efekty ołowiu i opóźnienia) sugerowanych przez użytkownika szeregów stochastycznych i deterministycznych. Skutki regresji przyczynowej proroka są po prostu współczesne.
4) Nie podejmuje się próby zmiany skoków / poziomów w pulsach szeregowych lub sezonowych, np. Zmiany EFEKTU PONIEDZIAŁKOWEGO w połowie czasu z powodu nieznanego zdarzenia zewnętrznego. Prorok zakłada „prosty wzrost liniowy”, a nie walidację go poprzez badanie alternatywnych możliwości. Możliwym tego przykładem jest Prognozowanie powtarzających się zamówień na subskrypcję online za pomocą Facebooka Prophet i R.
5) Sines i Cosine są nieprzejrzystym sposobem radzenia sobie z sezonowością, podczas gdy efekty sezonowe, takie jak dzień tygodnia, dzień miesiąca, tydzień miesiąca, miesiąc roku są o wiele bardziej skuteczny / informacyjny w przypadku efektów antropogenicznych (w kontaktach z ludźmi!).
Sugerowanie częstotliwości 365,25 dla rocznych wzorców nie ma sensu, ponieważ nie wykonujemy tej samej akcji dokładnie tego samego dnia, co w zeszłym roku, podczas gdy miesięczna aktywność jest znacznie bardziej trwała, ale wydaje się, że Prorok nie oferuje 11 miesięcznych wskaźników opcja. Tygodniowe częstotliwości 52 nie mają sensu, ponieważ nie mamy 52 tygodni każdego roku.
6) Nie próbuje się sprawdzać poprawności procesów błędów będących gaussowskimi, więc można przeprowadzić znaczące testy istotności.
7) Brak obawy, że wariancja błędu modelu będzie jednorodna, tj. Nie zmieni się deterministycznie w poszczególnych punktach czasu, co sugeruje najmniejsze ważone kwadraty. Nie ma obaw o znalezienie optymalnej transformacji mocy, która poradziłaby sobie z wariancją błędu proporcjonalną do oczekiwanej wartości Kiedy (i dlaczego) powinieneś wziąć log rozkładu (liczb)? .
8) Użytkownik musi wstępnie określić wszystkie możliwe efekty wyprzedzenia i opóźnienia w związku z wydarzeniami / świętami. Na przykład codzienna sprzedaż często zaczyna rosnąć pod koniec listopada, odzwierciedlając długoterminowy efekt świąt Bożego Narodzenia.
9) Nie ma obaw, że powstałe błędy są wolne od struktury, co sugeruje sposoby ulepszenia modelu poprzez diagnostyczne sprawdzenie wystarczalności.
10) Najwyraźniej nie ma obaw o ulepszenie modelu poprzez usunięcie nieistotnej struktury.
11) Nie ma możliwości uzyskania rodziny symulowanych prognoz, w których limity ufności niekoniecznie muszą być symetryczne poprzez ładowanie błędów modelu z uwzględnieniem ewentualnych anomalii.
12) Pozwalanie użytkownikowi na przyjmowanie założeń dotyczących trendów (liczba punktów przerwania trendu i rzeczywistych punktów przerwania) pozwala na niechcianą / nieużyteczną elastyczność w obliczu analizy na dużą skalę, która ze swojej nazwy jest przeznaczona do wielkoformatowych aplikacji głośnomówiących.
źródło
Nie korzystałem z niej, ale jest to streszczenie ich przedruku (moje podkreślenie):
We wstępie:
Wydaje mi się więc, że nie twierdzą oni, że dokonali tutaj znacznego postępu statystycznego (chociaż jest on w stanie wykonać znacznie więcej niż tylko prosty model, który zarysujesz). Zamiast tego twierdzą, że ich system umożliwia generowanie prognoz dużej liczbie osób bez specjalistycznej wiedzy w zakresie analizy szeregów czasowych, przy jednoczesnym zastosowaniu własnej wiedzy specjalistycznej w dziedzinie i ograniczeń specyficznych dla systemu.
Jeśli masz już wiedzę zarówno w zakresie analizy szeregów czasowych, jak i kodowania złożonych modeli, może Ci to nie być bardzo pomocne. Ale jeśli ich twierdzenia są prawdziwe, może to być bardzo przydatne! Nauka (i handel) rozwija się nie tylko z powodu nowych pomysłów, ale także z powodu nowych narzędzi i ich rozpowszechnienia (zobacz ten krótki artykuł Freemana Dysona na ten temat i tę odpowiedź ).
Weźmy przykład z samej statystyki:
R
nie reprezentował on postępu statystycznego, ale wywarł ogromny wpływ, ponieważ ułatwił znacznie większej liczbie osób przeprowadzenie analizy statystycznej. To właśnie na rusztowaniach zbudowano wiele danych statystycznych. Jeśli mamy szczęście, Prorok może odegrać podobną rolę.Dyson, Freeman J. „Czy nauka jest napędzana głównie przez pomysły czy narzędzia?” Science 338, nr. 6113 (2012): 1426–1427.
źródło
Brakuje punktów zmiany, częściowych splajnów liniowych, które można zaimplementować w modelach liniowych.
Masz rację, że przynajmniej w ograniczającym przypadku jest to regresja liniowa regulowana (regularyzacja L1 i L2).
Zauważ, że istnieje osobny model proroka, wzrost logistyczny.
Zakładasz również, że czynniki sezonowe są addytywne, ale wspierają także multiplikatywne efekty sezonowe, co wydaje się bardziej naturalne, przynajmniej w przypadku modelowania wzrostu.
źródło
Wiele można zrobić za pomocą prostej regresji liniowej, ale nie wszystko, co robi Prorok. Tylko jeden przykład, możesz określić swojego kandydata na punkt zmiany trendu, a Prorok użyje go wcześniej.
źródło