Szukam modelu między cenami energii a pogodą. Mam cenę MWatt kupioną między krajami Europy i wiele wartości pogodowych (pliki Grib). Co godzinę przez okres 5 lat (2011-2015).
Cena za dzień
To jest dziennie przez jeden rok. Mam to na godziny przez 5 lat.
Przykład pogody
3Dscatterplot, w kelwinach, przez godzinę. Mam 1000 wartości na dane na godzinę i 200 danych, takich jak Klevin, wiatr, dane geopolityczne itp.
Próbuję prognozować średnią cenę Mwatt za godzinę.
Moje dane na temat pogody są bardzo gęste, ponad 10000 wartości na godzinę, a więc z wysoką korelacją. To problem krótkich, dużych zbiorów danych.
Wypróbowałem metody Lasso, Ridge i SVR ze średnią ceną MWatt jako wynikiem i danymi mojej pogody jako dochodem. Wziąłem 70% jako dane treningowe i 30% jako test. Jeśli dane z mojego testu nie są prognozami (gdzieś w moich danych treningowych), mam dobrą prognozę (R² = 0,89). Ale chcę robić prognozy na moich danych.
Więc jeśli dane testowe są chronologicznie po moich danych treningowych, to niczego nie przewiduję (R² = 0,05). Myślę, że to normalne, ponieważ to seria czasu. I jest dużo autokorelacji.
Pomyślałem, że muszę użyć modelu czasowego, takiego jak ARIMA. Obliczyłem kolejność metody (seria jest stacjonarna) i przetestowałem ją. Ale to nie działa. Mam na myśli to, że prognozowanie ma wartość r² równą 0,05. Moje przewidywania dotyczące danych testowych wcale nie dotyczą moich danych testowych. Próbowałem metody ARIMAX z moją pogodą jako regresorem. Wstaw nie dodaje żadnych informacji.
ACF / PCF, dane z testu / pociągu
Więc zrobiłem sezonowe cięcie na dzień i na tydzień
Dzień
Tydzień na trend pierwszego
I mogę to mieć, jeśli mogę przewidzieć trend trendu mojej ceny akcji:
Niebieski jest moją prognozą, a czerwony prawdziwą wartością.
Zrobię regresję ze zmienną średnią pogody jako dochodu i trendem trendu ceny akcji jako rezultatem. Ale na razie nie znalazłem żadnego związku.
Ale jeśli nie ma interakcji, skąd mam wiedzieć, że nic nie ma? może po prostu tego nie znalazłem.
Odpowiedzi:
Być może zainteresuje Cię formalna dziedzina nauki zwana „mechaniką obliczeniową”. W artykule Jamesa Crutchfielda i Davida Feldmana przedstawiają program mechaniki obliczeniowej - o ile rozumiem - jako wytyczający granice między (1) niepewnością deterministyczną a kosztem informacyjnym wnioskowania o deterministycznych relacjach, (2) stochastyczny niepewność i koszt informacyjny wnioskowania o rozkładach prawdopodobieństwa oraz (3) entropia niepewności i konsekwencje braku informacji.
Aby odpowiedzieć bezpośrednio na twoje pytanie (choć również dość szeroko, ponieważ zadałeś szerokie pytanie), skąd wiemy, kiedy dowiedzieliśmy się, czy „wystarczy”, czy „wszystko, co możemy” z danych, jest otwartą dziedziną badań. Ten pierwszy z konieczności będzie zależał od potrzeb badacza i aktora na świecie (np. Biorąc pod uwagę, ile czasu? Ile mocy przetwarzania? Ile pamięci, ile pilności itp.).
Nie jestem na tym polu, ani nawet nie zagłębiam się w ten konkretny artykuł, ale są fajnymi myślicielami. :)
Crutchfield, JP i Feldman, DP (2003). Niewidzialne regularności, obserwowana losowość: Poziomy konwergencji entropii . Chaos , 13 (1): 25–54.
źródło