Algorytmy uczenia maszynowego dla danych panelu

12

W tym pytaniu - Czy istnieje metoda konstruowania drzew decyzyjnych uwzględniająca predyktory strukturalne / hierarchiczne / wielopoziomowe? - wspominają o metodzie danych panelowych dla drzew.

Czy istnieją specjalne metody danych panelowych do obsługi maszyn wektorowych i sieci neuronowych? Jeśli tak, czy możesz przytoczyć dokumenty dotyczące algorytmów i (jeśli są dostępne) pakiety R implementujące go?

Carlos Cinelli
źródło
1
Zastanawiałem się, do czego zdecydowałeś się w tym celu? Próbuje rozwiązać podobny problem.
użytkownik0

Odpowiedzi:

1

LSTM (Long Short Term Memory) może być dla Ciebie odpowiedni. Ten typ modelu może obsługiwać wiele funkcji w wielu punktach w czasie, co powinno pasować do danych paneli. Oto bardzo ładne wyjaśnienie koncepcji LSTM, a tutaj jest pakiet, który implementuje wersję R LSTM.

Ładne przemówienia
źródło
1

Gdy masz dane panelowe, możesz spróbować rozwiązać inne zadania, np. Klasyfikacja / regresja szeregów czasowych lub prognozowanie panelowe. Do każdego zadania istnieje wiele sposobów jego rozwiązania.

Jeśli chcesz zastosować metody uczenia maszynowego do rozwiązania prognozowania panelowego, istnieje wiele metod:

Jeśli chodzi o twoje dane wejściowe (X), traktuj jednostki (np. Kraje, osoby itp.) Jako próbki, możesz

  • bin szeregi czasowe i traktuj każdy przedział jako osobną kolumnę, ignorując jakiekolwiek uporządkowanie czasowe, z równymi przedziałami dla wszystkich jednostek, rozmiar przedziału może oczywiście być po prostu obserwowanym pomiarem szeregów czasowych, lub możesz próbkować i agregować w większe przedziały, a następnie stosować standardowe algorytmy uczenia maszynowego dla danych tabelarycznych,
  • lub wyodrębnij elementy z szeregów czasowych dla każdej jednostki i użyj każdej wyodrębnionej cechy jako osobnych kolumn, ponownie w połączeniu ze standardowymi algorytmami tabelarycznymi,
  • lub użyj wyspecjalizowanych algorytmów regresji / klasyfikacji szeregów czasowych w zależności od tego, czy obserwujesz ciągłe czy kategoryczne dane szeregów czasowych, obejmuje to maszyny wektorów pomocniczych ze specjalnymi jądrami, które porównują szeregi czasowe z szeregami czasowymi.

Jeśli chodzi o dane wyjściowe (y), jeśli chcesz prognozować wiele punktów czasowych w przyszłości, możesz

  • dopasuj estymator do każdego kroku, który chcesz prognozować, zawsze używając tych samych danych wejściowych,
  • lub dopasuj pojedynczy estymator dla pierwszego kroku do przodu i w przewidywaniu, rzuć dane wejściowe w czasie, używając prognoz pierwszego kroku, aby dołączyć do obserwowanych danych wejściowych, aby wykonać przewidywania drugiego kroku i tak dalej.

Wszystkie powyższe podejścia zasadniczo redukują problem prognozowania panelu do problemu regresji szeregów czasowych lub regresji tabelarycznej. Gdy Twoje dane znajdą się w formacie szeregów czasowych lub regresji tabelarycznej, możesz również dołączyć do użytkowników dowolne funkcje niezmienne w czasie.

Oczywiście istnieją inne opcje rozwiązania problemu prognozowania paneli, na przykład przy użyciu klasycznych metod prognozowania, takich jak ARIMA dostosowanych do danych paneli lub metod głębokiego uczenia, które umożliwiają bezpośrednie tworzenie prognoz sekwencji po sekwencji.

mloning
źródło