Tylko myśl:
Modele oszczędne zawsze były domyślnym wyborem przy wyborze modelu, ale w jakim stopniu to podejście jest przestarzałe? Jestem ciekawy, jak bardzo nasza skłonność do parsimony jest reliktem czasów zasad abaci i slajdu (lub, mówiąc poważniej, nienowoczesnych komputerów). Dzisiejsza moc obliczeniowa pozwala nam budować coraz bardziej złożone modele o coraz większej zdolności przewidywania. Czy w związku z tym rosnącym pułapem mocy obliczeniowej nadal musimy dążyć do prostoty?
Oczywiście, prostsze modele są łatwiejsze do zrozumienia i interpretacji, ale w dobie stale rosnących zestawów danych z większą liczbą zmiennych i przesunięciem w kierunku większego nacisku na możliwości przewidywania, może to już nie być możliwe do osiągnięcia lub konieczne.
Myśli?
źródło
Odpowiedzi:
Oryginalna odpowiedź Matta świetnie opisuje jedną z korzyści płynących z parsimony, ale nie sądzę, że faktycznie odpowiada na twoje pytanie. W rzeczywistości parsimony nie jest złotym standardem. Nigdy teraz nie było. „Złoty standard” związany z parsymonem to błąd uogólnienia. Chcielibyśmy opracować modele, które nie pasują do siebie. Są one tak samo przydatne do przewidywania (lub tak interpretowalne, jak i przy minimalnym błędzie) poza próbką, jak w próbce. Okazuje się (z powodu rzeczy przedstawionych powyżej), że parsimony jest w rzeczywistości całkiem dobrym proxy dla błędu uogólnienia, ale w żadnym wypadku nie jest jedynym.
Naprawdę zastanów się, dlaczego używamy weryfikacji krzyżowej lub ładowania początkowego lub zestawów szkoleniowych / testowych. Celem jest stworzenie modeli o dobrej dokładności uogólnienia. Często te sposoby szacowania wydajności poza próbą kończą się wyborem modeli o mniejszej złożoności, ale nie zawsze. Jako skrajny przykład wyobraź sobie, że wyrocznia przekazuje nam prawdziwy, ale niezwykle złożony model i biedny, ale oszczędny model. Gdyby naprawdę naszym celem było parsimony, wybralibyśmy ten drugi, ale w rzeczywistości pierwszym jest to, czego chcielibyśmy się nauczyć, gdybyśmy mogli. Niestety dużo czasu w ostatnim zdaniu jest kicker, „jeśli moglibyśmy”.
źródło
Modele oszczędne są pożądane nie tylko ze względu na wymagania obliczeniowe, ale także ze względu na ogólną wydajność. Niemożliwe jest osiągnięcie ideału nieskończonych danych, które całkowicie i dokładnie pokrywają przestrzeń próbki, co oznacza, że nieparymoniczne modele mogą potencjalnie zastępować i modelować szum lub osobliwości w populacji próbek.
Z pewnością możliwe jest zbudowanie modelu z milionami zmiennych, ale do modelowania systemu używasz zmiennych, które nie mają wpływu na dane wyjściowe. Możesz osiągnąć doskonałą wydajność predykcyjną w zestawie danych treningowych, ale te nieistotne zmienne z dużym prawdopodobieństwem obniżą Twoją wydajność w niewidzialnym zestawie testów.
Jeśli zmienna wyjściowa naprawdę jest wynikiem miliona zmiennych wejściowych, dobrze byłoby umieścić je wszystkie w modelu predykcyjnym, ale tylko wtedy, gdy masz wystarczającą ilość danych . Aby dokładnie zbudować model tego rozmiaru, potrzebujesz co najmniej kilku milionów punktów danych. Modele oszczędne są fajne, ponieważ w wielu rzeczywistych systemach zestaw danych tego rozmiaru po prostu nie jest dostępny, a ponadto wynik jest w dużej mierze determinowany przez stosunkowo niewielką liczbę zmiennych.
źródło
Myślę, że poprzednie odpowiedzi dobrze się przydają:
Chcę dodać kilka komentarzy, które wynikają z mojego codziennego doświadczenia zawodowego.
Uogólnienie argumentu o dokładności predykcyjnej jest oczywiście mocne, ale jego akademickie nastawienie jest ukierunkowane. Ogólnie rzecz biorąc, przy tworzeniu modelu statystycznego gospodarki nie są takie, że wyniki predykcyjne są całkowicie dominującym czynnikiem. Bardzo często istnieją duże zewnętrzne ograniczenia dotyczące wyglądu przydatnego modelu dla danej aplikacji:
W rzeczywistych domenach aplikacji wiele, jeśli nie wszystkie z tych rozważań ma miejsce przed , a nie po wydajności predykcyjnej, a optymalizacja formy i parametrów modelu jest ograniczona tymi pragnieniami. Każde z tych ograniczeń skłania naukowca do parsimony.
Może być prawdą, że w wielu dziedzinach ograniczenia te są stopniowo znoszone. Ale to naprawdę szczęśliwy naukowiec, który je ignoruje, koncentruje się wyłącznie na minimalizowaniu błędu uogólnienia.
To może być bardzo frustrujące po raz pierwszy naukowiec, świeżo po szkole (to zdecydowanie było dla mnie i nadal tak jest, kiedy czuję, że ograniczenia nałożone na moją pracę nie są uzasadnione). Ale w końcu ciężka praca nad wytworzeniem niedopuszczalnego produktu jest marnotrawstwem, a to wydaje się gorsze niż żądło twojej dumy naukowej.
źródło
Myślę, że to bardzo dobre pytanie. Moim zdaniem pasternactwo jest przereklamowane. Natura rzadko jest łagodna, dlatego też nie powinniśmy oczekiwać, że będą to dokładne modele predykcyjne lub opisowe. Jeśli chodzi o kwestię interpretacji, jeśli wybierzesz prostszy model, który tylko w niewielkim stopniu odpowiada rzeczywistości tylko dlatego, że możesz ją zrozumieć, co dokładnie rozumiesz? Zakładając, że bardziej złożony model ma lepszą moc predykcyjną, i tak wydaje się bliższy faktycznym faktom.
źródło
Parsimony nie jest złotym początkiem. To aspekt modelowania. Modelowania, a zwłaszcza prognozowania, nie można skryptować, tzn. Nie można po prostu przekazać skryptu modelarzowi, który ma go śledzić. Raczej określasz zasady, na których musi opierać się proces modelowania. Tak więc parsimony jest jedną z tych zasad, których zastosowania nie można skryptować (ponownie!). Modelarz weźmie pod uwagę złożoność przy wyborze modelu.
Moc obliczeniowa ma z tym niewiele wspólnego. Jeśli pracujesz w branży, Twoje modele będą konsumowane przez ludzi biznesu, osoby zajmujące się produktem, niezależnie od tego, jak je nazwiesz. Musisz im wyjaśnić swój model, który powinien mieć dla nich sens . Posiadanie oszczędnych modeli pomaga w tym względzie.
Na przykład prognozujesz sprzedaż produktów. Powinieneś być w stanie opisać, jakie są czynniki napędzające sprzedaż i jak one działają. Muszą być one powiązane z koncepcjami, z którymi działa biznes, a korelacje muszą być rozumiane i akceptowane przez biznes. W przypadku złożonych modeli interpretacja wyników modelu lub przypisanie różnic do wartości rzeczywistych może być bardzo trudne. Jeśli nie potrafisz wyjaśnić swojego modelu biznesowi, nie zostaniesz przez niego doceniony.
Jeszcze jedna rzecz, która jest szczególnie ważna przy prognozowaniu. Powiedzmy, że twój model jest zależny od N zmiennych egzogenicznych. Oznacza to, że musisz najpierw uzyskać prognozy tych zmiennych, aby przewidzieć zmienną zależną. Posiadanie mniejszego N ułatwia życie, dlatego łatwiejszy w użyciu model jest łatwiejszy.
źródło
Może mam recenzję Akaike Information Criterion , koncepcji, którą odkryłem wczoraj przez przypadek. AIC stara się określić, który model i ile parametrów jest najlepszym wyjaśnieniem dostępnych obserwacji, a nie jakakolwiek podstawowa metoda Razam Razor lub parsimony.
źródło