Załóżmy, że mam panel zmiennych objaśniających , dla , , a także wektor zmiennych zależnych od wyniku binarnego . Zatem obserwuje się tylko w czasie końcowym a nie w żadnym wcześniejszym czasie. Całkowicie ogólnym przypadkiem jest wielokrotność dla dla każdej jednostki w każdym czasie , ale skupmy się na przypadku dla zwięzłości. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1
Zastosowaniami takich „niezrównoważonych” par z tymczasowymi zmiennymi objaśniającymi są np. (Dzienne ceny akcji, dywidendy kwartalne), (dzienne prognozy pogody, coroczne huragany) lub (cechy pozycji szachowej po każdym ruchu, wynik wygranej / przegranej w koniec gry).
Jestem zainteresowany w (ewentualnie nieliniowej) współczynników regresji za to prognozy z , wiedząc, że w danych treningowych, biorąc pod uwagę wcześniejsze obserwacje dla , prowadzi do ostatecznego wynikuY i t X i t t < T Y i T
Pochodząc z tła ekonometrycznego, nie widziałem wielu modeli regresji zastosowanych do takich danych. OTOH, widziałem następujące techniki uczenia maszynowego stosowane do takich danych:
- robi nadzorowanego uczenia się na całego zestawu danych, np minimalizacja
po prostu ekstrapolując / przypisując obserwowane do wszystkich poprzednich punktów w czasie
Wydaje się to „niewłaściwe”, ponieważ nie uwzględni czasowej korelacji między różnymi punktami w czasie.
- robienie uczenia wzmacniającego, takiego jak różnica czasowa z parametrem uczenia i parametrem dyskontowym , i rekurencyjne rozwiązywanie dla poprzez propagację zaczynając odλ β t t = T
with gradient względem . f ( ) β
Wydaje się to bardziej „poprawne”, ponieważ uwzględnia strukturę czasową, ale parametry i są swego rodzaju „ad hoc”.λ
Pytanie : czy istnieje literatura na temat sposobu mapowania powyższych nadzorowanych / uczących się technik uczenia się w ramy regresji stosowane w statystyce klasycznej / ekonometrii? W szczególności chciałbym być w stanie oszacować parametry w „jednym przejściu” (tj. Dla wszystkich jednocześnie), wykonując (nieliniowe) najmniejsze kwadraty lub maksymalne prawdopodobieństwo w modelach takich jak t = 1 ... T
Chciałbym również dowiedzieć się, czy meta-parametry uczące się różnicy czasowej i można odzyskać z formuły o najwyższym prawdopodobieństwie.λ
źródło
Odpowiedzi:
Opis problemu nie jest dla mnie do końca jasny, dlatego staram się zgadywać pewne założenia. Jeśli to nie odpowiada na twoje pytanie, może przynajmniej pomóc w dalszym wyjaśnieniu problemów.
Pierwszą rzeczą, która nie jest dla mnie jasna, są dane, na których chcesz oprzeć swoje przewidywania. Jeśli chcesz przewidzieć na podstawie zaobserwowanych danych, aż do wówczas podejście rekurencyjne, jak w twojej metodzie 2. nie ma sensu, ponieważ wykorzystałoby to przyszłe dane, tj. z .YT t<T Xτ τ>t
Po drugie, nie określasz, jakie będą właściwości przewidywanego . Ogólnie biorąc, podane informacje w czasie warunkowe oczekiwanie jest „najlepszym predyktorem” w sensie L2. W przypadku, gdy naprawdę chcesz przewidzieć warunkowe oczekiwanie, zwykłą metodą najmniejszych kwadratów jest metoda praktycznego oszacowania.Yt X1,…,Xt t<T Yt=E[YT∣X1,…,Xt] YT
Co więcej, nie rozumiem twojej uwagi na temat korelacji nie odzwierciedlonych przez regresję opartą na . Ten zawiera wszystko, co wiedział, dopóki włącznie korelacji pomiędzy swoimi obserwacjami.X1,…,Xt t
Podsumowując i frazując to jako odpowiedź: jeśli chcesz dokonać optymalnej prognozy w sensie L2, w oparciu tylko o dane obserwowane do czasu , możesz użyć regresji metodą najmniejszych kwadratów.t<T
źródło
Zaletą różnic czasowych jest to, że pozwalają uczyć się na podstawie niepełnych odcinków. Tak więc sekwencje, w których nie dotarłeś do ostatecznego Y, można nadal wykorzystać do dopasowania modelu; zamiast tego używane są kolejne szacunki. Efekt jest podobny do imputacji ukrytych danych; domyślnie przypisujesz pozostałą część sekwencji zgodnie z bieżącym modelem.α
γ kontroluje względny wysiłek włożony w przewidywanie w zależności od odległości od końca sekwencji. Ponieważ te sekwencje mają skończoną długość, możesz ustawić tę wartość na , aby przypisać tę samą wagę wszystkim oszacowaniom. γ=1
Modele różnic czasowych są zwykle trenowane przez stochastyczne opadanie gradientu . kontroluje szybkość uczenia się. Zbyt wysoka, a metoda będzie się różnić. Zbyt niska i konwergencja do lokalnego optimum będzie bardzo powolna. Ale konwergencja powinna zawsze być zgodna z tym samym modelem. Tutaj,γ γ = 1
źródło