Czy parsimony naprawdę powinno być złotym standardem?

31

Tylko myśl:

Modele oszczędne zawsze były domyślnym wyborem przy wyborze modelu, ale w jakim stopniu to podejście jest przestarzałe? Jestem ciekawy, jak bardzo nasza skłonność do parsimony jest reliktem czasów zasad abaci i slajdu (lub, mówiąc poważniej, nienowoczesnych komputerów). Dzisiejsza moc obliczeniowa pozwala nam budować coraz bardziej złożone modele o coraz większej zdolności przewidywania. Czy w związku z tym rosnącym pułapem mocy obliczeniowej nadal musimy dążyć do prostoty?

Oczywiście, prostsze modele są łatwiejsze do zrozumienia i interpretacji, ale w dobie stale rosnących zestawów danych z większą liczbą zmiennych i przesunięciem w kierunku większego nacisku na możliwości przewidywania, może to już nie być możliwe do osiągnięcia lub konieczne.

Myśli?

theforestecologist
źródło
4
Z przeprosinami dla Richarda Hamminga: Celem modelowania jest wgląd, a nie liczby. Skomplikowane modele utrudniają wgląd.
Eric Towers
12
Modele, które są bardzo uproszczone, jeszcze bardziej utrudniają wgląd.
Frank Harrell,
6
Może to zależeć od aplikacji; w fizyce uważam, że argument za parsimony będzie miał mocne podstawy. Jednak wiele aplikacji będzie miało wiele małych efektów, których nie można wyeliminować (na przykład rozważ modele preferencji politycznych). Wielu pracowników sugeruje, że stosowanie regularyzacji (takiej jak metody prowadzące do kurczenia się lub w wielu aplikacjach zmniejszania różnic, lub obu) zamiast eliminacji zmiennych ma większy sens; inni skłaniają się ku pewnej selekcji i pewnej kurczliwości (na przykład LASSO robi obie te rzeczy).
Glen_b
3
Modele oszczędne nie są „wybierane” w wyborze modelu. W przeciwnym razie zawsze modelowalibyśmy wszystko za pomocą średniej próbki i nazywali to dniem.
shadowtalker
1
Ponadto, pewne przemyślenia: Mease i Wyner (2008) zalecają bogatszych uczniów w AdaBoost, co jest nieco nieintuicyjne. Otwartym pytaniem w tej linii badań wydaje się być to, czy skąpe uczniowie podstawowi faktycznie prowadzą do skąpych zespołów.
shadowtalker

Odpowiedzi:

25

Oryginalna odpowiedź Matta świetnie opisuje jedną z korzyści płynących z parsimony, ale nie sądzę, że faktycznie odpowiada na twoje pytanie. W rzeczywistości parsimony nie jest złotym standardem. Nigdy teraz nie było. „Złoty standard” związany z parsymonem to błąd uogólnienia. Chcielibyśmy opracować modele, które nie pasują do siebie. Są one tak samo przydatne do przewidywania (lub tak interpretowalne, jak i przy minimalnym błędzie) poza próbką, jak w próbce. Okazuje się (z powodu rzeczy przedstawionych powyżej), że parsimony jest w rzeczywistości całkiem dobrym proxy dla błędu uogólnienia, ale w żadnym wypadku nie jest jedynym.

Naprawdę zastanów się, dlaczego używamy weryfikacji krzyżowej lub ładowania początkowego lub zestawów szkoleniowych / testowych. Celem jest stworzenie modeli o dobrej dokładności uogólnienia. Często te sposoby szacowania wydajności poza próbą kończą się wyborem modeli o mniejszej złożoności, ale nie zawsze. Jako skrajny przykład wyobraź sobie, że wyrocznia przekazuje nam prawdziwy, ale niezwykle złożony model i biedny, ale oszczędny model. Gdyby naprawdę naszym celem było parsimony, wybralibyśmy ten drugi, ale w rzeczywistości pierwszym jest to, czego chcielibyśmy się nauczyć, gdybyśmy mogli. Niestety dużo czasu w ostatnim zdaniu jest kicker, „jeśli moglibyśmy”.

Nick Thieme
źródło
Jaka jest „oryginalna odpowiedź”?
mattdm,
:) Słusznie. Komentarz Matta.
Nick Thieme,
22

Modele oszczędne są pożądane nie tylko ze względu na wymagania obliczeniowe, ale także ze względu na ogólną wydajność. Niemożliwe jest osiągnięcie ideału nieskończonych danych, które całkowicie i dokładnie pokrywają przestrzeń próbki, co oznacza, że ​​nieparymoniczne modele mogą potencjalnie zastępować i modelować szum lub osobliwości w populacji próbek.

Z pewnością możliwe jest zbudowanie modelu z milionami zmiennych, ale do modelowania systemu używasz zmiennych, które nie mają wpływu na dane wyjściowe. Możesz osiągnąć doskonałą wydajność predykcyjną w zestawie danych treningowych, ale te nieistotne zmienne z dużym prawdopodobieństwem obniżą Twoją wydajność w niewidzialnym zestawie testów.

Jeśli zmienna wyjściowa naprawdę jest wynikiem miliona zmiennych wejściowych, dobrze byłoby umieścić je wszystkie w modelu predykcyjnym, ale tylko wtedy, gdy masz wystarczającą ilość danych . Aby dokładnie zbudować model tego rozmiaru, potrzebujesz co najmniej kilku milionów punktów danych. Modele oszczędne są fajne, ponieważ w wielu rzeczywistych systemach zestaw danych tego rozmiaru po prostu nie jest dostępny, a ponadto wynik jest w dużej mierze determinowany przez stosunkowo niewielką liczbę zmiennych.

Nuclear Wang
źródło
5
+1. Sugeruję przeczytanie elementów uczenia statystycznego (bezpłatnie dostępnych w Internecie) , które szczegółowo omawiają ten problem.
S. Kolassa - Przywróć Monikę
3
Z drugiej strony, gdy masz miliony zmiennych i niewiele obiektów, prawdopodobnie przez przypadek niektóre zmienne lepiej wyjaśniają wynik prawdziwej interakcji. W takim przypadku modelowanie oparte na oszczędnościach będzie bardziej podatne na nadmierne dopasowanie niż podejście oparte na brutalnej sile.
@CagdasOzgenc Na przykład duży losowy zespół podprzestrzeni.
Wydaje mi się, że można tu zastosować coś w rodzaju podejścia Lasso.
theforestecologist
17

Myślę, że poprzednie odpowiedzi dobrze się przydają:

  • Modele oszczędne mają zwykle lepszą charakterystykę uogólniającą.
  • Parsimony nie jest tak naprawdę złotym standardem, ale tylko rozważaniem.

Chcę dodać kilka komentarzy, które wynikają z mojego codziennego doświadczenia zawodowego.

Uogólnienie argumentu o dokładności predykcyjnej jest oczywiście mocne, ale jego akademickie nastawienie jest ukierunkowane. Ogólnie rzecz biorąc, przy tworzeniu modelu statystycznego gospodarki nie są takie, że wyniki predykcyjne są całkowicie dominującym czynnikiem. Bardzo często istnieją duże zewnętrzne ograniczenia dotyczące wyglądu przydatnego modelu dla danej aplikacji:

  • Model musi być możliwy do wdrożenia w ramach istniejącej struktury lub systemu.
  • Model musi być zrozumiały dla jednostki nietechnicznej.
  • Model musi być wydajny obliczeniowo.
  • Model musi być dokumentowalny .
  • Model musi spełniać ograniczenia regulacyjne .

W rzeczywistych domenach aplikacji wiele, jeśli nie wszystkie z tych rozważań ma miejsce przed , a nie po wydajności predykcyjnej, a optymalizacja formy i parametrów modelu jest ograniczona tymi pragnieniami. Każde z tych ograniczeń skłania naukowca do parsimony.

Może być prawdą, że w wielu dziedzinach ograniczenia te są stopniowo znoszone. Ale to naprawdę szczęśliwy naukowiec, który je ignoruje, koncentruje się wyłącznie na minimalizowaniu błędu uogólnienia.

To może być bardzo frustrujące po raz pierwszy naukowiec, świeżo po szkole (to zdecydowanie było dla mnie i nadal tak jest, kiedy czuję, że ograniczenia nałożone na moją pracę nie są uzasadnione). Ale w końcu ciężka praca nad wytworzeniem niedopuszczalnego produktu jest marnotrawstwem, a to wydaje się gorsze niż żądło twojej dumy naukowej.

Matthew Drury
źródło
2
Żadne parsimony nie jest brane pod uwagę. Procedura wnioskowania dźwiękowego MUSI uszeregować model oszczędny w porównaniu z modelem niepodatnym, jeśli równie dobrze wyjaśnią dane. W przeciwnym razie całkowita skompresowana długość kodu modelu i dane zakodowane przez model nie będą najmniejsze. Tak, to złoty standard.
Cagdas Ozgenc
3
Parsimony NIE jest „złotym standardem”! To stwierdzenie jest niedorzeczne. Jeśli to prawda, to dlaczego nie zawsze budujemy modele, które pasują tylko do bezwarunkowego środka? Wymieniamy stronniczość i wariancję w odniesieniu do zestawu testowego lub, co więcej, całkowicie nowych obserwacji i robimy to w ramach ograniczeń naszej dziedziny, organizacji i prawa. Czasami masz tylko tyle informacji, by naiwne przewidywania. Czasami masz dość, aby dodać złożoności.
Brash Equilibrium
1
@BrashEquilibrium Myślę, że Cagdas mówi, biorąc pod uwagę wybór między równie przewidywalnymi modelami, należy wybrać najbardziej oszczędny.
Matthew Drury
1
Ach To inna sprawa. Tak, w takim przypadku wybierz najbardziej oszczędny model. Nadal nie sądzę, by sprowadzało się to do tego, że parsimony jest „złotym standardem”.
Brash Equilibrium
1
@MatthewDrury Brash, Cagdas. Ciekawy. Być może parsimony jest tylko jednym ze składników standardu złota; która prawdopodobnie (lub powinna być) lepiej oparta na pojęciu obejmowania . Dobra prezentacja tego pomysłu znajduje się w następującym wykładzie astrofizyki z Yale: oyc.yale.edu/astronomy/astr-160/lecture-11 . 7:04 i następne. Pomysł pojawia się także w literaturze ekonometrycznej / prognostycznej Davida Hendry'ego i Grayhama Mizona. Twierdzą, że uwzględnienie jest częścią progresywnej strategii badawczej, której parsimony jest jednym aspektem.
Graeme Walsh
14

Myślę, że to bardzo dobre pytanie. Moim zdaniem pasternactwo jest przereklamowane. Natura rzadko jest łagodna, dlatego też nie powinniśmy oczekiwać, że będą to dokładne modele predykcyjne lub opisowe. Jeśli chodzi o kwestię interpretacji, jeśli wybierzesz prostszy model, który tylko w niewielkim stopniu odpowiada rzeczywistości tylko dlatego, że możesz ją zrozumieć, co dokładnie rozumiesz? Zakładając, że bardziej złożony model ma lepszą moc predykcyjną, i tak wydaje się bliższy faktycznym faktom.

dsaxton
źródło
8
Dobrze powiedziane @dsaxton. Istnieje wielkie nieporozumienie dotyczące oszczędności i wielkie niedocenianie tego, jak zmienny jest wybór funkcji. Parsimony jest przyjemne, gdy wynika ze wstępnej specyfikacji. Większość łagodności wynikającej z pogłębiania danych jest myląca i jest zrozumiała tylko dlatego, że jest błędna.
Frank Harrell,
2
@FrankHarrell Czy rozwinąłbyś temat „zrozumiałeś tylko dlatego, że jest źle”, a może link do czegoś, co napisałeś wcześniej na ten temat? To interesująca kwestia, którą chciałbym się upewnić.
gui11aume
8
Jest to skrajny przykład, ale ludzie, którzy angażują się w profilowanie rasowe, uważają, że rozumieją, z jedną cechą (np. Kolor skóry), jaką wartość ma ktoś. Dla nich odpowiedź jest prosta. Rozumieją to tylko dlatego, że dokonują niewłaściwego osądu poprzez nadmierne uproszczenie. Parsimony jest zwykle iluzją (z wyjątkiem mechaniki Newtona i kilku innych dziedzin).
Frank Harrell,
1
„Natura rzadko jest łagodna”: a jednym z punktów, w którym natura jest szczególnie łagodna, są osobniki (w przeciwieństwie do naszych typowych rozmiarów próbek!). Ewolucja wykorzystuje zupełnie nową populację nowych osobników każdego pokolenia ... IMHO parsimony (z góry określony typ Franka Harrella - dopuszczenie dowolnej liczby m dostępnych funkcji w modelu jest w rzeczywistości bardzo złożonym modelem - nawet jeśli n << m, jest to niezbyt mała część oryginalnej przestrzeni wyszukiwania). W ten sposób staramy się uzyskać przynajmniej coś z naszych zbyt małych zbiorów danych.
cbeleites obsługuje Monikę
2

Parsimony nie jest złotym początkiem. To aspekt modelowania. Modelowania, a zwłaszcza prognozowania, nie można skryptować, tzn. Nie można po prostu przekazać skryptu modelarzowi, który ma go śledzić. Raczej określasz zasady, na których musi opierać się proces modelowania. Tak więc parsimony jest jedną z tych zasad, których zastosowania nie można skryptować (ponownie!). Modelarz weźmie pod uwagę złożoność przy wyborze modelu.

Moc obliczeniowa ma z tym niewiele wspólnego. Jeśli pracujesz w branży, Twoje modele będą konsumowane przez ludzi biznesu, osoby zajmujące się produktem, niezależnie od tego, jak je nazwiesz. Musisz im wyjaśnić swój model, który powinien mieć dla nich sens . Posiadanie oszczędnych modeli pomaga w tym względzie.

Na przykład prognozujesz sprzedaż produktów. Powinieneś być w stanie opisać, jakie są czynniki napędzające sprzedaż i jak one działają. Muszą być one powiązane z koncepcjami, z którymi działa biznes, a korelacje muszą być rozumiane i akceptowane przez biznes. W przypadku złożonych modeli interpretacja wyników modelu lub przypisanie różnic do wartości rzeczywistych może być bardzo trudne. Jeśli nie potrafisz wyjaśnić swojego modelu biznesowi, nie zostaniesz przez niego doceniony.

Jeszcze jedna rzecz, która jest szczególnie ważna przy prognozowaniu. Powiedzmy, że twój model jest zależny od N zmiennych egzogenicznych. Oznacza to, że musisz najpierw uzyskać prognozy tych zmiennych, aby przewidzieć zmienną zależną. Posiadanie mniejszego N ułatwia życie, dlatego łatwiejszy w użyciu model jest łatwiejszy.

Aksakal
źródło
Chociaż wspominasz o prognozowaniu, większość odpowiedzi wydaje się dotyczyć wyłącznie modelowania objaśniającego.
rolando2
@ rolando2, to tak brzmi, ponieważ w mojej domenie nie można po prostu przekazać prognozy użytkownikom. Musimy wyjaśnić prognozę, powiązać ją z kierowcami itp. Gdy otrzymasz prognozę pogody, zwykle nie pytasz prognostyka, aby wyjaśnił ci, dlaczego dokładnie myślą, że będzie padać z 50% szansą. W moim przypadku nie tylko muszę to zrobić, ale zrobić to w taki sposób, aby moi konsumenci zrozumieli wyniki, łącząc je ze sterownikami biznesowymi, z którymi mają do czynienia na co dzień. Dlatego parsimony jest cenne samo w sobie
Aksakal
1

Może mam recenzję Akaike Information Criterion , koncepcji, którą odkryłem wczoraj przez przypadek. AIC stara się określić, który model i ile parametrów jest najlepszym wyjaśnieniem dostępnych obserwacji, a nie jakakolwiek podstawowa metoda Razam Razor lub parsimony.

Philip Oakley
źródło