Od dłuższego czasu obserwuję zawody Kaggle i zdaję sobie sprawę, że wiele zwycięskich strategii wymaga użycia co najmniej jednego z „wielkich trójek”: workowania, wzmacniania i układania.
W przypadku regresji zamiast koncentrowania się na budowaniu jednego najlepszego możliwego modelu regresji, budowanie wielu modeli regresji, takich jak (Uogólniona) regresja liniowa, losowe modele regresji lasu, KNN, NN i SVM, i mieszanie wyników w jeden w rozsądny sposób wydaje się być -przeprowadzaj każdą metodę wiele razy.
Oczywiście solidne zrozumienie każdej metody jest kluczem, a intuicyjną historię można opowiedzieć na podstawie modelu regresji liniowej, ale zastanawiam się, czy stała się to najnowocześniejsza metodologia, aby osiągnąć jak najlepsze wyniki.
Odpowiedzi:
Powszechnie wiadomo, przynajmniej pod koniec lat 60. XX wieku, że jeśli weźmiesz kilka prognoz † i je uśrednisz , to wynikowa prognoza zagregowana w wielu przypadkach przewyższy poszczególne prognozy. Pakowanie, wzmacnianie i układanie w stosy opiera się dokładnie na tym pomyśle. Tak, jeśli twoim celem jest wyłącznie przewidywanie, w większości przypadków jest to najlepsze, co możesz zrobić. Problematyczne w tej metodzie jest to, że jest to metoda czarnej skrzynki, która zwraca wynik, ale nie pomaga w jego zrozumieniu i interpretacji. Oczywiście jest to również bardziej wymagające obliczeniowo niż jakakolwiek inna metoda, ponieważ trzeba obliczyć kilka prognoz zamiast jednej.
† Dotyczy to ogólnie wszelkich prognoz , ale często opisuje się je w literaturze dotyczącej prognoz.
Winkler, RL. i Makridakis, S. (1983). Połączenie prognoz. JR Statis. Soc. A. 146 (2), 150-157.
Makridakis, S. i Winkler, RL (1983). Średnie prognoz: niektóre wyniki empiryczne. Management Science, 29 (9) 987–996.
Clemen, RT (1989). Łączenie prognoz: przegląd i bibliografia z adnotacjami. International Journal of Forecasting, 5, 559-583.
Bates, JM and Granger, CW (1969). Połączenie prognoz. Lub 451–468.
Makridakis, S. i Hibon, M. (2000). Konkurs M3: wyniki, wnioski i implikacje. Międzynarodowy dziennik prognoz, 16 (4), 451–476.
Reid, DJ (1968). Łącząc trzy szacunki produktu krajowego brutto. Economica, 431–444.
Makridakis, S., Spiliotis, E., i Assimakopoulos, V. (2018). Konkurs M4: wyniki, ustalenia, wnioski i dalsze działania. International Journal of Forecasting.
źródło
Arthur (1994) ma przyjemny krótki eksperyment papierowy / myślowy, który jest dobrze znany w literaturze o złożoności.
Jednym z wniosków jest to, że agenci nie mogą wybrać lepszych modeli predykcyjnych (nawet jeśli mają ich „las”) w warunkach nierównowagi. Na przykład, jeśli pytanie dotyczy wyników giełdy, zastosowanie może mieć ustawienie Arthur (1994).
źródło