Chciałbym zastosować binarny model regresji logistycznej w kontekście przesyłania strumieniowego danych (wielowymiarowe szeregi czasowe), aby przewidzieć wartość zmiennej zależnej danych (tj. Wiersza), które właśnie nadeszły, biorąc pod uwagę wcześniejsze obserwacje. O ile mi wiadomo, regresja logistyczna jest tradycyjnie stosowana do analizy pośmiertnej, gdzie każda zmienna zależna została już ustawiona (albo przez kontrolę, albo przez charakter badania).
Co dzieje się jednak w przypadku szeregów czasowych, w których chcemy przewidzieć (w locie) zmienną zależną w odniesieniu do danych historycznych (na przykład w oknie czasowym ostatnich sekund) i, oczywiście, poprzednie szacunki zmiennej zależnej?
A jeśli z czasem zobaczysz powyższy system, jak należy go skonstruować, aby regresja działała? Czy musimy go najpierw wyszkolić, oznaczając, powiedzmy, pierwsze 50 wierszy naszych danych (tj. Ustawiając zmienną zależną na 0 lub 1), a następnie wykorzystujemy bieżące oszacowanie wektora do oszacowania nowego prawdopodobieństwa zmiennej zależnej 0 lub 1 dla danych, które właśnie dotarły (tj. Nowy wiersz, który właśnie został dodany do systemu)?
Aby wyjaśnić mój problem, próbuję zbudować system, który analizuje zestaw danych wiersz po wierszu i próbuje przewidzieć wynik binarny (zmienna zależna), biorąc pod uwagę wiedzę (obserwację lub oszacowanie) wszystkich poprzednich zależnych lub objaśniających zmienne, które dotarły w ustalonym oknie czasowym. Mój system znajduje się w Rerl i korzysta z R do wnioskowania.
źródło
Odpowiedzi:
Istnieją dwie metody do rozważenia:
Używaj tylko ostatnich N próbek wejściowych. Zakładając, że sygnał wejściowy ma wymiar D, wówczas masz próbki N * D na podstawie etykiety prawdziwej ziemi. W ten sposób możesz trenować, używając dowolnego klasyfikatora, w tym regresji logistycznej. W ten sposób każde wyjście jest uważane za niezależne od wszystkich innych wyjść.
Użyj ostatnich N próbek wejściowych i ostatnich N wygenerowanych wyników. Problem jest podobny do dekodowania viterbi . Możesz wygenerować wynik niebinarny na podstawie próbek wejściowych i połączyć wynik wielu próbek za pomocą dekodera viterbi. Jest to lepsze niż metoda 1., jeśli teraz coś o relacjach czasowych między wyjściami.
źródło