Często buduję model (klasyfikację lub regresję), w którym mam pewne zmienne predykcyjne, które są sekwencjami, i staram się znaleźć zalecenia dotyczące techniki, aby je podsumować w najlepszy możliwy sposób, aby można je było włączyć do modelu jako predyktory.
Jako konkretny przykład, powiedzmy, że budowany jest model przewidujący, czy klient odejdzie z firmy w ciągu następnych 90 dni (w dowolnym czasie od t do t + 90, a więc wynik binarny). Jednym z dostępnych predyktorów jest poziom salda finansowego klientów za okresy od t_0 do t-1. Może reprezentuje to miesięczne obserwacje z poprzednich 12 miesięcy (tj. 12 pomiarów).
Szukam sposobów na konstruowanie funkcji z tej serii. Używam opisów każdej serii klientów, takich jak średnia, wysoka, niska, standardowe odchylenie, pasuje do regresji OLS, aby uzyskać trend. Czy istnieją inne metody obliczania cech? Inne miary zmiany lub zmienności?
DODAJ:
Jak wspomniano w odpowiedzi poniżej, wziąłem również pod uwagę (ale zapomniałem tu dodać) użycie dynamicznego dopasowania czasu (DTW), a następnie hierarchiczne grupowanie na wynikowej macierzy odległości - tworząc pewną liczbę klastrów, a następnie używając członkostwa w klastrze jako funkcji. Punktacja danych testowych prawdopodobnie musiałaby przebiegać zgodnie z procesem, w którym DTW przeprowadzono dla nowych przypadków i centrów klastrów - dopasowując nowe serie danych do ich najbliższych centroidów ...
Wyodrębnianie funkcji jest zawsze wyzwaniem i rzadziej poruszanym tematem w literaturze, ponieważ jest szeroko zależne od aplikacji.
Kilka pomysłów, które możesz wypróbować:
źródło
Na pierwszy rzut oka musisz wyodrębnić funkcje ze swoich szeregów czasowych (x - 12) - x. Jednym z możliwych podejść jest obliczenie wskaźników podsumowujących: średnia, dyspersja itp. Ale robiąc to, stracisz wszystkie informacje związane z szeregami czasowymi. Ale dane wyodrębnione z kształtu krzywej mogą być bardzo przydatne. Polecam przejrzenie tego artykułu, w którym autorzy proponują algorytm dla grupowania szeregów czasowych. Mam nadzieję, że się przyda. Oprócz takiego grupowania możesz dodać statystyki podsumowujące do listy funkcji.
źródło