Próbuję wykorzystać regresję RF do prognozowania wydajności papierni.
Mam dane minut po minucie dla danych wejściowych (szybkość i ilość miazgi drzewnej wchodzącej itp.), A także dla wydajności maszyny (wyprodukowany papier, moc pobierana przez maszynę) i szukam prognoz 10 minut wyprzedzić zmienne wydajności.
Mam 12 miesięcy danych, więc podzieliłem je na 11 miesięcy dla zestawu treningowego i ostatni miesiąc na testowanie.
Do tej pory stworzyłem 10 nowych funkcji, których wartości są opóźnione o 1-10 minut dla każdej zmiennej wydajności, i wykorzystałem je, a także dane wejściowe do prognozowania. Wydajność zestawu testowego była całkiem dobra (system jest dość przewidywalny), ale martwię się, że coś mi brakuje.
Na przykład w tym artykule autorzy podają swoje podejście do testowania zdolności predykcyjnej ich losowego modelu lasu:
Symulacja przebiega przez iteracyjne dodawanie nowego tygodnia danych, szkolenie nowego modelu na podstawie zaktualizowanych danych i przewidywanie liczby ognisk w następnym tygodniu
Czym różni się to od wykorzystywania „późniejszych” danych w szeregach czasowych do testowania? Czy powinienem sprawdzać poprawność mojego modelu regresji RF za pomocą tego podejścia, a także na zestawie danych testowych? Co więcej, czy takie „autoregresyjne” podejście do losowej regresji leśnej jest ważne dla szeregów czasowych i czy muszę nawet tworzyć tyle opóźnionych zmiennych, jeśli jestem zainteresowany prognozą na 10 minut w przyszłości?
Odpowiedzi:
Podane przez ciebie podejście nazywa się prognozowaniem „kroczącym źródłem”: początek, z którego prognozujemy, jest „kroczący naprzód”, a dane szkoleniowe są aktualizowane o nowo dostępne informacje. Prostszym podejściem jest „prognozowanie pojedynczego źródła”, w którym wybieramy jedno źródło.
Zaletą kroczącego prognozowania pochodzenia jest to, że symuluje on system prognozowania w czasie . W prognozowaniu pojedynczego źródła możemy przypadkowo wybrać źródło, w którym nasz system działa bardzo dobrze (lub bardzo źle), co może dać nam błędne wyobrażenie o wydajności naszego systemu.
Wadą prognozowania kroczącego źródła jest jego większe zapotrzebowanie na dane. Jeśli chcemy przewidzieć 10 kroków z co najmniej 50 obserwacjami historycznymi, możemy to zrobić pojedynczo z 60 punktami danych ogółem. Ale jeśli chcemy zrobić 10 pokrywających się początkowych zmiennych, potrzebujemy 70 punktów danych.
Drugą wadą jest oczywiście większa złożoność.
Nie trzeba dodawać, że nie należy również wykorzystywać „późniejszych” danych w kroczącym prognozowaniu początku, ale należy używać tylko danych przed źródłem, którego używasz w każdej iteracji.
Jeśli masz wystarczającą ilość danych, ciągła ocena pochodzenia zawsze wzbudzi we mnie większe zaufanie niż ocena pojedynczego pochodzenia, ponieważ, mam nadzieję, uśredni wpływ źródła.
Tak, prognozy kroczące w stosunku do pojedynczego źródła są ważne dla każdego ćwiczenia predykcyjnego. Nie zależy to od tego, czy korzystasz z losowych lasów, ARIMA czy czegokolwiek innego.
Czy potrzebujesz opóźnionych zmiennych, nie możemy Ci doradzić. Najlepiej porozmawiać z ekspertem, który może również zasugerować inne informacje. Po prostu wypróbuj swoje RF z opóźnionymi wejściami vs. bez. A także porównaj ze standardowymi testami porównawczymi, takimi jak ARIMA lub ETS, lub nawet prostszymi metodami, które mogą być zaskakująco trudne do pokonania .
źródło