Czy to najnowocześniejsza metodologia regresji?

33

Od dłuższego czasu obserwuję zawody Kaggle i zdaję sobie sprawę, że wiele zwycięskich strategii wymaga użycia co najmniej jednego z „wielkich trójek”: workowania, wzmacniania i układania.

W przypadku regresji zamiast koncentrowania się na budowaniu jednego najlepszego możliwego modelu regresji, budowanie wielu modeli regresji, takich jak (Uogólniona) regresja liniowa, losowe modele regresji lasu, KNN, NN i SVM, i mieszanie wyników w jeden w rozsądny sposób wydaje się być -przeprowadzaj każdą metodę wiele razy.

Oczywiście solidne zrozumienie każdej metody jest kluczem, a intuicyjną historię można opowiedzieć na podstawie modelu regresji liniowej, ale zastanawiam się, czy stała się to najnowocześniejsza metodologia, aby osiągnąć jak najlepsze wyniki.

Maxareo
źródło
W niektórych przypadkach sieć neuronowa dobrze definiuje rytm „klasyczny” sposób regresji. Na przykład w Ile padało II . Ale to zdecydowanie czarna skrzynka.
YCR
@YCR Zgadzam się, że to blackbox. Podczas pracy zbudowałem niesamowity model uczenia maszynowego i próbowałem wyjaśnić ludziom biznesu lub komuś, kto nie jest obeznany z tym modelem, konwersacja zwykle kończy się w ten sposób: zbudowałem niesamowity model uczenia maszynowego, działa jak magia, ale Nie mogę opowiedzieć ci ciekawej historii.
Maxareo,

Odpowiedzi:

41

Powszechnie wiadomo, przynajmniej pod koniec lat 60. XX wieku, że jeśli weźmiesz kilka prognoz i je uśrednisz , to wynikowa prognoza zagregowana w wielu przypadkach przewyższy poszczególne prognozy. Pakowanie, wzmacnianie i układanie w stosy opiera się dokładnie na tym pomyśle. Tak, jeśli twoim celem jest wyłącznie przewidywanie, w większości przypadków jest to najlepsze, co możesz zrobić. Problematyczne w tej metodzie jest to, że jest to metoda czarnej skrzynki, która zwraca wynik, ale nie pomaga w jego zrozumieniu i interpretacji. Oczywiście jest to również bardziej wymagające obliczeniowo niż jakakolwiek inna metoda, ponieważ trzeba obliczyć kilka prognoz zamiast jednej.

† Dotyczy to ogólnie wszelkich prognoz , ale często opisuje się je w literaturze dotyczącej prognoz.


Winkler, RL. i Makridakis, S. (1983). Połączenie prognoz. JR Statis. Soc. A. 146 (2), 150-157.

Makridakis, S. i Winkler, RL (1983). Średnie prognoz: niektóre wyniki empiryczne. Management Science, 29 (9) 987–996.

Clemen, RT (1989). Łączenie prognoz: przegląd i bibliografia z adnotacjami. International Journal of Forecasting, 5, 559-583.

Bates, JM and Granger, CW (1969). Połączenie prognoz. Lub 451–468.

Makridakis, S. i Hibon, M. (2000). Konkurs M3: wyniki, wnioski i implikacje. Międzynarodowy dziennik prognoz, 16 (4), 451–476.

Reid, DJ (1968). Łącząc trzy szacunki produktu krajowego brutto. Economica, 431–444.

Makridakis, S., Spiliotis, E., i Assimakopoulos, V. (2018). Konkurs M4: wyniki, ustalenia, wnioski i dalsze działania. International Journal of Forecasting.

Tim
źródło
1
Link w przypiętym przypisie wydaje mi się nie działać?
Silverfish,
@ Dzięki Silverfish, naprawiono. Link miał niewielkie znaczenie, ale jeśli nie działa, jest bezużyteczny.
Tim
0

Arthur (1994) ma przyjemny krótki eksperyment papierowy / myślowy, który jest dobrze znany w literaturze o złożoności.

Jednym z wniosków jest to, że agenci nie mogą wybrać lepszych modeli predykcyjnych (nawet jeśli mają ich „las”) w warunkach nierównowagi. Na przykład, jeśli pytanie dotyczy wyników giełdy, zastosowanie może mieć ustawienie Arthur (1994).

Glenn Magerman
źródło