Nie wiem, czy jest to powszechna / najlepsza praktyka, ale jest to inny punkt widzenia tej sprawy.
Jeśli masz, powiedzmy, datę, możesz traktować każde pole jako „zmienną kategorii” zamiast „zmiennej ciągłej”. Dzień miałby wartość z zestawu {1, 2 ..., 31}, miesiąc miałby wartość z {1, ..., 12}, a dla roku wybrałeś wartość minimalną i maksymalną i zbuduj zestaw.
Następnie, ponieważ określone wartości liczbowe dni, miesięcy i lat mogą nie być przydatne do znajdowania trendów w danych, użyj reprezentacji binarnej, aby zakodować wartości liczbowe, z których każda jest funkcją. Na przykład miesiącem 5 będzie 0 0 0 0 1 0 0 0 0 0 0 0
(11 0 to 1 na 5 pozycji, każdy bit jest cechą).
Tak więc, mając na przykład 10 lat w „zestawie roku”, data zostałaby przekształcona w wektor 43 cech (= 31 + 12 + 10). Przy użyciu „rzadkich wektorów” ilość funkcji nie powinna stanowić problemu.
Coś podobnego można zrobić dla danych dotyczących czasu, dnia tygodnia, dnia miesiąca ...
Wszystko zależy od pytania, na które ma odpowiedzieć model uczenia maszynowego.
Kontekst mojej odpowiedzi : Dotychczas pojawiły się świetne odpowiedzi. Ale chcę przedłużyć rozmowę, zakładając, że mówisz o aplikacji do uczenia maszynowego do przewidywania przyszłych wartości tego konkretnego szeregu czasowego. Mając to na uwadze, moja rada jest poniżej.
Rada : Najpierw przyjrzyj się tradycyjnym strategiom prognozowania statystycznego (tj. Wygładzaniu wykładniczemu, SARIMAX lub regresji dynamicznej) jako linii bazowej dla wyników prognozowania. Chociaż uczenie maszynowe okazało się bardzo obiecujące dla różnych aplikacji, dla szeregów czasowych istnieją wypróbowane i prawdziwe metody statystyczne, które mogą lepiej służyć Twojej aplikacji. Chciałbym zwrócić uwagę na dwa ostatnie artykuły:
Jeśli szukasz dobrej wydajności, wybierz miernik do porównania z kilkoma modelami (np. MASE) i przejrzyj kilka modeli statystycznych (odniesienia poniżej) i uczenia maszynowego (ze wspomnianymi powyżej strategiami rozwoju funkcji).
Twoje zdrowie,
Materiały do nauki prognozowania statystycznego : Zacznę od przejrzenia darmowego podręcznika Rob J Hyndmana tutaj: https://otexts.org/fpp2/ . Tekst oparty jest na pakiecie R, który możesz łatwo włączyć do swojej analizy: https://otexts.org/fpp2/appendix-using-r.html . Na koniec należy pamiętać o różnicy między walidacją przekrojową a walidacją krzyżową szeregów czasowych, jak wyjaśniono tutaj: https://robjhyndman.com/hyndsight/tscv/ .
źródło