Kiedy przestać udoskonalać model?

15

Przez ostatnie 3 lata studiowałem statystyki z wielu książek, a dzięki tej stronie wiele się nauczyłem. Niemniej jedno fundamentalne pytanie wciąż pozostaje dla mnie bez odpowiedzi. Może mieć bardzo prostą lub bardzo trudną odpowiedź, ale wiem na pewno, że wymaga dogłębnego zrozumienia statystyki.

Przy dopasowywaniu modelu do danych, czy to częstych, czy bayesowskich, proponujemy model, który może składać się z funkcjonalnej formy prawdopodobieństwa, wcześniejszego lub jądra (nieparametrycznego) itp. Problemem jest dowolny model pasuje do próbki o pewnym poziomie dobroci. Zawsze można znaleźć lepszy lub gorszy model w porównaniu do tego, co jest pod ręką. W pewnym momencie zatrzymujemy się i zaczynamy wyciągać wnioski, uogólniać na parametry populacji, zgłaszać przedziały ufności, obliczać ryzyko itp. Dlatego wszelkie wyciągane przez nas wnioski są zawsze uzależnione od modelu, z którym postanowiliśmy się zgodzić. Nawet jeśli używamy narzędzi do oszacowania oczekiwanej odległości KL, takich jak AIC, MDL itp., Nie mówi to nic o tym, gdzie jesteśmy absolutnie, ale po prostu poprawia nasze oszacowanie na podstawie względnej.

Załóżmy teraz, że chcielibyśmy zdefiniować procedurę krok po kroku, która będzie stosowana do każdego zestawu danych podczas budowania modeli. Co powinniśmy określić jako regułę zatrzymującą? Czy możemy przynajmniej ograniczyć błąd modelu, który da nam obiektywny punkt zatrzymania (różni się to od zatrzymania treningu przy użyciu próbki walidacyjnej, ponieważ daje on również punkt zatrzymania w ocenianej klasie modelu, a nie zapisuje prawdziwy MZD)?

Cagdas Ozgenc
źródło
1
Myślę, że powinieneś dodać do pytania inne tagi niż tylko wnioskowanie, np. Niektóre tagi modelowania i wybór modelu. Myślę, że to może mieć znaczenie w tym przypadku także brzytwa Ockhama . Oto także artykuł, który omawia to w oparciu o modelowanie bayesowskie.
Gumeo
Czasami budujesz konkretny model, ponieważ jest on szczególnie dobry do oszacowania niektórych parametrów, a nie dlatego, że uważasz, że ogólny rozkład jest dokładny (patrz Szacowanie M, uogólnione równania szacunkowe) itp. Tak więc, jeśli naprawdę zależy ci na przyzwoitym oszacowaniu lokalizacji, lepiej jest mieć niewłaściwy model, ale taki, który nie jest łatwo wyrzucany przez hałas (dla twojego parametru zainteresowania). Ogólnie, patrz Solidne oszacowanie.
Bardzo interesujące pytanie. Tylko komentarz, który przynajmniej w ustawieniu bayesowskim jeden podnosi również kwestię uśrednienia ponad prawdopodobny podzbiór modeli zamiast wybierania jednego. Nie jestem pewien teoretycznego sposobu na pytanie PO i wydaje mi się, że praktycznie dzieje się tak przez to, czy wybrany model jest wystarczający do rozwiązania problemu, który próbujemy rozwiązać. Być może potrzebujemy wyboru modelu metodami MCMC lub czegoś takiego! Mogę wyobrazić sobie zagnieżdżone podejście MCMC do tego ...
Luca
@Luca To zostało zrobione. Problem pozostaje jednak, ponieważ przestrzeń modeli zdefiniowanych przez przeora Bayesa może zawierać prawdziwy model. Nawet jeśli tak, błąd modelu nadal występuje, jest to błąd przeciętnego modelu w odniesieniu do prawdziwej MZD.
Cagdas Ozgenc
1
+1 za pytanie. W dużej mierze dotyczy to filozoficzne lub epistemiological, to znaczy nie tylko „co wiemy, a jak wiemy to” ale „co może wiemy i jak można go znamy?” Jak powiedział fizyk Richard Feynman: „Nie można znaleźć odpowiedzi, która kiedyś nie okaże się błędna”. Innymi słowy i jeśli nie jesteś religijny, istnieje uzasadniona wątpliwość, czy istnieje jednoznaczna, wieczna prawda gruntowa, na której można cokolwiek zakotwiczyć . .
Mike Hunter,

Odpowiedzi:

12

Niestety na to pytanie nie ma dobrej odpowiedzi. Możesz wybrać najlepszy model w oparciu o fakt, że minimalizuje on błąd bezwzględny, błąd podniesiony do kwadratu, maksymalizuje prawdopodobieństwo, wykorzystując niektóre kryteria, które karzą prawdopodobieństwo (np. AIC, BIC), aby wymienić tylko kilka najczęstszych wyborów. Problem polega na tym, że żadne z tych kryteriów nie pozwoli ci wybrać obiektywnie najlepszego modelu, a raczej najlepszy, z którego porównałeś. Innym problemem jest to, że podczas optymalizacji zawsze można uzyskać lokalne maksimum / minimum. Jeszcze innym problemem jest to, że wybór kryteriów wyboru modelu jest subiektywny . W wielu przypadkach świadomie lub półświadomie decydujesz o tym, co Cię interesuje i na tej podstawie wybierasz kryteria. Na przykład, używanie BIC zamiast AIC prowadzi do bardziej oszczędnych modeli o mniejszych parametrach. Zazwyczaj do modelowania interesują Cię bardziej oszczędne modele, które prowadzą do pewnych ogólnych wniosków na temat wszechświata, podczas gdy do przewidywania nie musi tak być, a czasami bardziej skomplikowany model może mieć lepszą moc predykcyjną (ale nie musi i często to nie). W jeszcze innych przypadkach czasami bardziej skomplikowane modele są preferowane ze względów praktycznych , na przykład podczas szacowania modelu Bayesa z MCMC, model z hierarchicznymi hiperpriorami może zachowywać się lepiej w symulacji niż prostszy. Z drugiej strony generalnie boimy się nadmiernego dopasowaniaa prostszy model ma mniejsze ryzyko nadmiernego dopasowania, więc jest to bezpieczniejszy wybór. Dobrym przykładem tego jest automatyczny stopniowy wybór modelu, który generalnie nie jest zalecany, ponieważ łatwo prowadzi do przeszacowania i tendencyjnych oszacowań. Istnieje również filozoficzny argument, brzytwa Ockhama , że najprostszym modelem jest ten preferowany. Zauważ też, że omawiamy tutaj porównanie różnych modeli, podczas gdy w rzeczywistych sytuacjach może być tak, że korzystanie z różnych narzędzi statystycznych może prowadzić do różnych wyników - więc istnieje dodatkowa warstwa wyboru metody!

Wszystko to prowadzi do smutnego, ale zabawnego faktu, że nigdy nie możemy być pewni. Zaczynamy od niepewności, używamy metod, aby sobie z tym poradzić, a kończymy na niewierności. Może to być paradoksalne, ale pamiętajmy, że używamy statystyk, ponieważ uważamy , że świat jest niepewny i probabilistyczny (inaczej wybralibyśmy karierę proroków), więc jak moglibyśmy dojść do różnych wniosków? Nie ma obiektywnej reguły zatrzymywania, istnieje wiele możliwych modeli, wszystkie są w błędzie (przepraszam za frazes!), Ponieważ starają się uprościć skomplikowaną (ciągle zmieniającą się i probabilistyczną) rzeczywistość. Uważamy, że niektóre z nich są bardziej przydatne niż inne do naszych celów, a czasem to robimyθμ

Możesz sięgnąć jeszcze głębiej i dowiedzieć się, że w rzeczywistości nie ma czegoś takiego jak „prawdopodobieństwo” - jest to tylko pewne przybliżenie niepewności wokół nas i istnieją również alternatywne sposoby przybliżenia, takie jak np. Logika rozmyta (patrz Kosko, 1993 do dyskusji). Nawet bardzo podstawowe narzędzia i twierdzenia, na których opierają się nasze metody, są przybliżeniami i nie są jedynymi możliwymi. Po prostu nie możemy być pewni w takiej konfiguracji.

Reguła zatrzymywania, której szukasz, jest zawsze specyficzna dla problemu i subiektywna, tzn. Oparta na tak zwanym profesjonalnym osądzie. Nawiasem mówiąc, istnieje wiele przykładów badań, które wykazały, że profesjonaliści często nie są lepsi, a czasem nawet gorsi w ocenie niż laicy (np. Ożywiani w dokumentach i książkach Daniela Kahnemana ), a jednocześnie są bardziej podatni na nadmierną pewność siebie (to w rzeczywistości argument o tym, dlaczego powinniśmy nie starają się być „pewny” o naszych modelach).


Kosko, B. (1993). Myślenie rozmyte: nowa nauka logiki rozmytej. Nowy Jork: Hyperion.

Tim
źródło
1
μ
1
Twierdzenie to jest prawdziwe, gdy jego założenia są spełnione (np. Otrzymujemy ustaloną próbkę, co jest prawdą w praktyce). Wyjęte z kontekstu i naruszające założenia mogą oczywiście być fałszywe.
Richard Hardy
1
@CagdasOzgenc to ktoś, kto ma metodologię tworzenia modelu, który doskonale odzwierciedla rzeczywistość, niż nie ma potrzeby zatrzymywania reguły lub mierzenia błędu modelu - model jest z definicji idealny. Jeśli znasz te zasady budowy takiego modelu, nie ma potrzeby dokonywania pomiaru rozbieżności modelu z prawdziwego DGP, ponieważ znając prawdziwe DGP prostu wykorzystać taką wiedzę. Z drugiej strony, jeśli twój model jest uproszczeniem opartym na posiadanych danych, zastosowanie mają ogólne reguły statystyk, jak opisano w mojej odpowiedzi.
Tim
1
@CagdasOzgenc nadal, jeśli znasz „prawdę”, zasada zatrzymania jest prosta: przestań, gdy twój model pasuje do „prawdy”. Jeśli nie wiesz, co jest prawdą, to „wszystkie modele są [jednakowo] złe…” i musisz użyć statystyk. Jeśli nie wiesz, nie możesz zmierzyć rozbieżności.
Tim
1
@Luca To znaczy bardzo , ale jest abstrakcyjne.
Tim
4

Istnieje całe pole zwane statystyką nieparametryczną, które pozwala uniknąć użycia silnych modeli. Jednak Twoja obawa dotycząca dopasowania modeli jako takich jest uzasadniona. Niestety nie ma mechanicznej procedury dopasowywania modeli, która byłaby powszechnie akceptowana jako „optymalna”. Na przykład, jeśli chcesz zdefiniować model, który maksymalizuje prawdopodobieństwo twoich danych, zostaniesz poprowadzony do funkcji rozkładu empirycznego.

Jednak zwykle mamy pewne założenia i ograniczenia tła, takie jak ciągły ze skończonymi pierwszymi i drugimi momentami. W takich przypadkach jednym podejściem jest wybranie miary, takiej jak Entropia różnicowa Shannona i maksymalizacja jej w przestrzeni ciągłych rozkładów, które spełniają twoje ograniczenia brzegowe.

Chciałbym zwrócić uwagę, że jeśli nie chcesz tylko domyślnie obsługiwać ECDF, musisz dodać założenia, poza danymi, aby się tam dostać, a to wymaga specjalistycznej wiedzy merytorycznej i tak , przerażający ..... profesjonalny osąd

Czy jest zatem gwarantowany punkt zatrzymania modelowania ... odpowiedź brzmi „nie”. Czy jest wystarczająco dobre miejsce, aby się zatrzymać? Zasadniczo tak, ale ten punkt będzie zależeć nie tylko od danych i niektórych dezyderat statystycznych, zwykle bierze się pod uwagę ryzyko różnych błędów, techniczne ograniczenia wdrażania modeli oraz wiarygodność ich szacunków, itp.

Jak zauważył @Luca, zawsze możesz uśrednić klasę modeli, ale, jak słusznie zauważyłeś, przesunie to pytanie na wyższy poziom hiperparametrów. Niestety wydaje się, że żyjemy w nieskończenie warstwowej cebuli ... w obu kierunkach!


źródło