Tłumaczenie problemu uczenia maszynowego na ramy regresji

12

Załóżmy, że mam panel zmiennych objaśniających , dla , , a także wektor zmiennych zależnych od wyniku binarnego . Zatem obserwuje się tylko w czasie końcowym a nie w żadnym wcześniejszym czasie. Całkowicie ogólnym przypadkiem jest wielokrotność dla dla każdej jednostki w każdym czasie , ale skupmy się na przypadku dla zwięzłości. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

Zastosowaniami takich „niezrównoważonych” par z tymczasowymi zmiennymi objaśniającymi są np. (Dzienne ceny akcji, dywidendy kwartalne), (dzienne prognozy pogody, coroczne huragany) lub (cechy pozycji szachowej po każdym ruchu, wynik wygranej / przegranej w koniec gry).(X,Y)

Jestem zainteresowany w (ewentualnie nieliniowej) współczynników regresji za to prognozy z , wiedząc, że w danych treningowych, biorąc pod uwagę wcześniejsze obserwacje dla , prowadzi do ostatecznego wynikuY i t X i t t < T Y i TβtYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Pochodząc z tła ekonometrycznego, nie widziałem wielu modeli regresji zastosowanych do takich danych. OTOH, widziałem następujące techniki uczenia maszynowego stosowane do takich danych:

  1. robi nadzorowanego uczenia się na całego zestawu danych, np minimalizacja

i,t12(Yitf(Xitβt))2

po prostu ekstrapolując / przypisując obserwowane do wszystkich poprzednich punktów w czasieY

YitYiT,t=1...T1

Wydaje się to „niewłaściwe”, ponieważ nie uwzględni czasowej korelacji między różnymi punktami w czasie.

  1. robienie uczenia wzmacniającego, takiego jak różnica czasowa z parametrem uczenia i parametrem dyskontowym , i rekurencyjne rozwiązywanie dla poprzez propagację zaczynając odλ β t t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

with gradient względem . f ( ) ββY^f()β

Wydaje się to bardziej „poprawne”, ponieważ uwzględnia strukturę czasową, ale parametry i są swego rodzaju „ad hoc”.λαλ

Pytanie : czy istnieje literatura na temat sposobu mapowania powyższych nadzorowanych / uczących się technik uczenia się w ramy regresji stosowane w statystyce klasycznej / ekonometrii? W szczególności chciałbym być w stanie oszacować parametry w „jednym przejściu” (tj. Dla wszystkich jednocześnie), wykonując (nieliniowe) najmniejsze kwadraty lub maksymalne prawdopodobieństwo w modelach takich jak t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Chciałbym również dowiedzieć się, czy meta-parametry uczące się różnicy czasowej i można odzyskać z formuły o najwyższym prawdopodobieństwie.λαλ

TemplateRex
źródło
Czy możesz wyjaśnić sformułowanie w akapicie trzecim? Piszesz, że chcesz przewidzieć z , , ale poniższy wzór sugeruje, że chcesz przewidzieć . YiTXitt<TYit
NRH
@NRH faktycznie obserwuję tylko , ale to, co widziałem w literaturze na temat nadzorowanego uczenia się, polega na tym, że przypisują one niezauważone równości a następnie dokonują dopasowania, aby faktycznie wyjaśnić ten fałszywy z (odbywa się to w aplikacjach do gier, w których funkcja oceny dla każdej pozycji jest dopasowana do końcowego wyniku gry). Przepraszam, jeśli nie było to jasne z mojego początkowego sformułowania. W każdym razie byłby przewidywanym „wynikiem” (w aplikacjach do gry), biorąc pod uwagę obserwowane zdarzenia . YiTYitYiTYitXitY^itXit
TemplateRex,
Rozumiem konfigurację i to, co obserwujesz, ale twoje sformułowanie w pytaniu jest niejasne. Czy chcesz wytrenować model przewidywania podczas pisania słowami, czy chcesz wytrenować model przewidywania dla wszystkich jak sugerują formuły? Może to tylko literówka. Kiedy piszesz "... prognozy z ..." masz na myśli "... prognozy z ..."? YiTYittYiTYit
NRH,
nie jest jasne, dlaczego chcesz to zrobić. Jeśli potrafisz wyjaśnić praktyczne zastosowanie, możesz uzyskać jaśniejsze odpowiedzi. Ogólnie rzecz biorąc, najlepszą prognozą dla każdego przedziału czasu będzie po prostu regresja dla dostępnych danych osobno dla każdego t. Nie jest oczywiste, że jednoczesne podejście ma jakąkolwiek korzyść. Myślę, że musisz określić model statystyczny dla swojego zestawu danych, a wtedy korzyści mogą być wyraźniejsze. YTX1,,Xt
seanv507
@NRH, tak, chcę przewidzieć podstawie wiedząc, że prowadzi to do wyniku w danych treningowych, aby podjąć optymalne działania dla danych testowych, w których również obserwuję ale nie zaobserwowałem jeszcze rezultatu. Zaktualizuje moje sformułowanie. YitXitYiTXit
TemplateRex,

Odpowiedzi:

1

Opis problemu nie jest dla mnie do końca jasny, dlatego staram się zgadywać pewne założenia. Jeśli to nie odpowiada na twoje pytanie, może przynajmniej pomóc w dalszym wyjaśnieniu problemów.

Pierwszą rzeczą, która nie jest dla mnie jasna, są dane, na których chcesz oprzeć swoje przewidywania. Jeśli chcesz przewidzieć na podstawie zaobserwowanych danych, aż do wówczas podejście rekurencyjne, jak w twojej metodzie 2. nie ma sensu, ponieważ wykorzystałoby to przyszłe dane, tj. z .YTt<TXττ>t

Po drugie, nie określasz, jakie będą właściwości przewidywanego . Ogólnie biorąc, podane informacje w czasie warunkowe oczekiwanie jest „najlepszym predyktorem” w sensie L2. W przypadku, gdy naprawdę chcesz przewidzieć warunkowe oczekiwanie, zwykłą metodą najmniejszych kwadratów jest metoda praktycznego oszacowania.YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Co więcej, nie rozumiem twojej uwagi na temat korelacji nie odzwierciedlonych przez regresję opartą na . Ten zawiera wszystko, co wiedział, dopóki włącznie korelacji pomiędzy swoimi obserwacjami.X1,,Xtt

Podsumowując i frazując to jako odpowiedź: jeśli chcesz dokonać optymalnej prognozy w sensie L2, w oparciu tylko o dane obserwowane do czasu , możesz użyć regresji metodą najmniejszych kwadratów.t<T

gg
źródło
w danych treningowych chcę wykorzystać fakt, że dana obserwacja statystycznie doprowadzi do wyniku , aby przewidzieć dla danych testowych, których nie obserwuję do później. Jeśli np. Wiesz, że po 3 wietrznych dniach prawdopodobnie będzie padać deszcz w dniu 7, chcesz użyć tych informacji, aby powiedzieć ludziom, aby przynieśli parasole po weekendzie po kilku wietrznych dniach wcześniej. XitYiTY^itYiT
TemplateRex,
0

Zaletą różnic czasowych jest to, że pozwalają uczyć się na podstawie niepełnych odcinków. Tak więc sekwencje, w których nie dotarłeś do ostatecznego Y, można nadal wykorzystać do dopasowania modelu; zamiast tego używane są kolejne szacunki. Efekt jest podobny do imputacji ukrytych danych; domyślnie przypisujesz pozostałą część sekwencji zgodnie z bieżącym modelem.
Modele różnic czasowych są zwykle trenowane przez stochastyczne opadanie gradientu . kontroluje szybkość uczenia się. Zbyt wysoka, a metoda będzie się różnić. Zbyt niska i konwergencja do lokalnego optimum będzie bardzo powolna. Ale konwergencja powinna zawsze być zgodna z tym samym modelem. Tutaj,γ γ = 1α
γkontroluje względny wysiłek włożony w przewidywanie w zależności od odległości od końca sekwencji. Ponieważ te sekwencje mają skończoną długość, możesz ustawić tę wartość na , aby przypisać tę samą wagę wszystkim oszacowaniom. γ=1

nsweeney
źródło
To tak naprawdę nie odpowiada na pytanie: np. Jak optymalnie ustawić parametry i w ramach maksymalnego prawdopodobieństwa? γαγ
TemplateRex,
γα kontroluje szybkość konwergencji, ale nie powinna mieć wpływu na ostateczny model ani na prawdopodobieństwo tego modelu. W praktyce ustawiam to metodą prób i błędów. Musisz ustawić ponieważ kontroluje względne znaczenie prognoz krótko- i długoterminowych, jeśli te same parametry są stosowane w prognozach krótko i długo. Będzie to specyficzne dla aplikacji w zależności od tego, co chcesz zrobić z prognozami. γ
nsweeney,