Korekty prognozy (regresja liniowa)

11

Pełne ujawnienie: nie jestem statystykiem ani nie twierdzę, że nim jestem. Jestem skromnym administratorem IT. Graj ze mną delikatnie. :)

Odpowiadam za zbieranie i prognozowanie wykorzystania miejsca na dysku dla naszego przedsiębiorstwa. Gromadzimy nasze wykorzystanie pamięci co miesiąc i stosujemy prostą, dwunastomiesięczną regresję liniową do prognoz (innymi słowy, tylko poprzednie dwanaście miesięcy danych są brane pod uwagę przy sporządzaniu prognozy). Używamy tych informacji do planowania alokacji i wydatków kapitałowych, np. „W oparciu o ten model będziemy musieli zakupić x kwoty, jeśli miejsce do magazynowania w miesiącach będzie odpowiadać naszym potrzebom”. To wszystko działa wystarczająco dobrze, aby spełnić nasze potrzeby.

Okresowo mamy duże jednorazowe ruchy w naszych liczbach, które zakłócają prognozowanie. Na przykład ktoś znajduje 500 GB starych kopii zapasowych, które nie są już potrzebne, i usuwa je. Dobre dla nich za odzyskanie przestrzeni! Jednak nasze prognozy są teraz zniekształcone przez duży spadek w ciągu jednego miesiąca. Zawsze po prostu akceptowaliśmy fakt, że taki spadek zajmuje 9-10 miesięcy, aby wyjść z modeli, ale może to potrwać naprawdę długo, jeśli wejdziemy w sezon planowania wydatków kapitałowych.

Zastanawiam się, czy istnieje sposób, aby poradzić sobie z tymi jednorazowymi odchyleniami, aby nie wpływać tak bardzo na prognozowane wartości (np. Nachylenie linii nie zmienia się tak gwałtownie), ale są one brane pod uwagę (np. jednorazowa zmiana wartości y związana z określonym punktem w czasie). Nasze pierwsze próby rozwiązania tego problemu przyniosły brzydkie wyniki (np. Wykładnicze krzywe wzrostu). Jeśli to ma znaczenie, wykonujemy całe przetwarzanie w programie SQL Server.

sbrown
źródło
Doskonałe pytanie. Krótkie wyjaśnienie. Czy chcesz przewidzieć te zdarzenia, a jeśli już się zdarzy, dostosuj przewidywania modelu, uwzględniając nowe informacje?
Matthew Drury
1
Jasne, nie jest jasne, czy próbujesz „wygładzić” te rzadkie zdarzenia, jak na przykład 500 GB, aby nie wpłynęły one tak bardzo na twoje wyniki, czy też próbujesz je rozliczyć więcej, ponieważ chcesz uchwycić, kiedy korekty suki do przechowywania są zrobione? Różnica jest subtelna: na początku chcesz prawie zignorować nowy punkt (rzadkie zdarzenie), ale w drugiej kolejności chcesz podkreślić punkt (rzadkie zdarzenie). Jeśli jest to pierwsza, solidna regresja jest prawdopodobnie prostą metodą, ponieważ już używasz regresji liniowej. Zobacz tutaj: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent
Czy używasz też oprogramowania do prognozowania i czy używasz przedziałów ufności?
StatsStudent
Po fakcie mogę dodać korektę. W rzeczywistości przez większość czasu nie będę wiedział o dużym odchyleniu, dopóki nie spojrzę na liczby z następnego miesiąca i nie zauważę dużej zmiany. Nie używam żadnego oprogramowania do prognozowania; tylko procedura przechowywana w SQL Server do obliczenia moich wartości regresji.
sbrown
Szybkie reakcje: (a) Prawdopodobnie najpierw dopasowałbym bardzo podstawowy AR (1) do zmian w użyciu dysku dziennika? Zasadniczo oszacowałbyś jakąś długoterminową stopę wzrostu użycia dysku i to, jak szybko stopa wzrostu wykorzystania dysku wraca do tego trendu po szoku. (aa) Możesz również użyć innych danych i dopasować VAR (autoregresję wektorową). (b) wyrzucenie wszystkich danych> 12 miesięcy może nie być optymalnym rozwiązaniem. (c) zwykły OLS minimalizuje sumę kwadratów. Możesz użyć innej funkcji karnej (np. Huber), która jest bardziej odporna na wartości odstające.
Matthew Gunn

Odpowiedzi:

0

Oto prosta sugestia. Nie wiem, czy to działa dla ciebie i może powinienem był to zrobić jako komentarz, ale wydaje się, że potrzebujesz więcej uprawnień, aby komentować niż odpowiadać.

Jeśli dobrze rozumiem, dane, z których korzystasz, to ilość miejsca, z którego korzystasz każdego miesiąca. Prawdopodobnie te zwykle rosną i chcesz przewidzieć, jaka będzie kwota w przyszłości, jeśli trendy będą się utrzymywać. Kiedy zdasz sobie sprawę, że nastąpiła Twoja duża zmiana (np. Że 500 GB zostało wydane), czy możesz cofnąć się i zmienić dane z poprzednich miesięcy (np. Usunąć 500 GB ze wszystkich)? Zasadniczo chciałbyś dostosować dane z poprzednich miesięcy do tego, co powinny być, gdybyś wiedział, co wiesz teraz.

Oczywiście nie polecam tego, chyba że upewnisz się, że możesz wrócić do starych postaci. Ale prognozowanie, które chcesz wykonać, może brzmieć nawet w programie Excel, w którym to przypadku możesz mieć tyle wersji, ile chcesz.

MikeG
źródło