Przez ostatnie 3 lata studiowałem statystyki z wielu książek, a dzięki tej stronie wiele się nauczyłem. Niemniej jedno fundamentalne pytanie wciąż pozostaje dla mnie bez odpowiedzi. Może mieć bardzo prostą lub bardzo trudną odpowiedź, ale wiem na pewno, że wymaga dogłębnego zrozumienia statystyki.
Przy dopasowywaniu modelu do danych, czy to częstych, czy bayesowskich, proponujemy model, który może składać się z funkcjonalnej formy prawdopodobieństwa, wcześniejszego lub jądra (nieparametrycznego) itp. Problemem jest dowolny model pasuje do próbki o pewnym poziomie dobroci. Zawsze można znaleźć lepszy lub gorszy model w porównaniu do tego, co jest pod ręką. W pewnym momencie zatrzymujemy się i zaczynamy wyciągać wnioski, uogólniać na parametry populacji, zgłaszać przedziały ufności, obliczać ryzyko itp. Dlatego wszelkie wyciągane przez nas wnioski są zawsze uzależnione od modelu, z którym postanowiliśmy się zgodzić. Nawet jeśli używamy narzędzi do oszacowania oczekiwanej odległości KL, takich jak AIC, MDL itp., Nie mówi to nic o tym, gdzie jesteśmy absolutnie, ale po prostu poprawia nasze oszacowanie na podstawie względnej.
Załóżmy teraz, że chcielibyśmy zdefiniować procedurę krok po kroku, która będzie stosowana do każdego zestawu danych podczas budowania modeli. Co powinniśmy określić jako regułę zatrzymującą? Czy możemy przynajmniej ograniczyć błąd modelu, który da nam obiektywny punkt zatrzymania (różni się to od zatrzymania treningu przy użyciu próbki walidacyjnej, ponieważ daje on również punkt zatrzymania w ocenianej klasie modelu, a nie zapisuje prawdziwy MZD)?
Odpowiedzi:
Niestety na to pytanie nie ma dobrej odpowiedzi. Możesz wybrać najlepszy model w oparciu o fakt, że minimalizuje on błąd bezwzględny, błąd podniesiony do kwadratu, maksymalizuje prawdopodobieństwo, wykorzystując niektóre kryteria, które karzą prawdopodobieństwo (np. AIC, BIC), aby wymienić tylko kilka najczęstszych wyborów. Problem polega na tym, że żadne z tych kryteriów nie pozwoli ci wybrać obiektywnie najlepszego modelu, a raczej najlepszy, z którego porównałeś. Innym problemem jest to, że podczas optymalizacji zawsze można uzyskać lokalne maksimum / minimum. Jeszcze innym problemem jest to, że wybór kryteriów wyboru modelu jest subiektywny . W wielu przypadkach świadomie lub półświadomie decydujesz o tym, co Cię interesuje i na tej podstawie wybierasz kryteria. Na przykład, używanie BIC zamiast AIC prowadzi do bardziej oszczędnych modeli o mniejszych parametrach. Zazwyczaj do modelowania interesują Cię bardziej oszczędne modele, które prowadzą do pewnych ogólnych wniosków na temat wszechświata, podczas gdy do przewidywania nie musi tak być, a czasami bardziej skomplikowany model może mieć lepszą moc predykcyjną (ale nie musi i często to nie). W jeszcze innych przypadkach czasami bardziej skomplikowane modele są preferowane ze względów praktycznych , na przykład podczas szacowania modelu Bayesa z MCMC, model z hierarchicznymi hiperpriorami może zachowywać się lepiej w symulacji niż prostszy. Z drugiej strony generalnie boimy się nadmiernego dopasowaniaa prostszy model ma mniejsze ryzyko nadmiernego dopasowania, więc jest to bezpieczniejszy wybór. Dobrym przykładem tego jest automatyczny stopniowy wybór modelu, który generalnie nie jest zalecany, ponieważ łatwo prowadzi do przeszacowania i tendencyjnych oszacowań. Istnieje również filozoficzny argument, brzytwa Ockhama , że najprostszym modelem jest ten preferowany. Zauważ też, że omawiamy tutaj porównanie różnych modeli, podczas gdy w rzeczywistych sytuacjach może być tak, że korzystanie z różnych narzędzi statystycznych może prowadzić do różnych wyników - więc istnieje dodatkowa warstwa wyboru metody!
Wszystko to prowadzi do smutnego, ale zabawnego faktu, że nigdy nie możemy być pewni. Zaczynamy od niepewności, używamy metod, aby sobie z tym poradzić, a kończymy na niewierności. Może to być paradoksalne, ale pamiętajmy, że używamy statystyk, ponieważ uważamy , że świat jest niepewny i probabilistyczny (inaczej wybralibyśmy karierę proroków), więc jak moglibyśmy dojść do różnych wniosków? Nie ma obiektywnej reguły zatrzymywania, istnieje wiele możliwych modeli, wszystkie są w błędzie (przepraszam za frazes!), Ponieważ starają się uprościć skomplikowaną (ciągle zmieniającą się i probabilistyczną) rzeczywistość. Uważamy, że niektóre z nich są bardziej przydatne niż inne do naszych celów, a czasem to robimyθ μ
Możesz sięgnąć jeszcze głębiej i dowiedzieć się, że w rzeczywistości nie ma czegoś takiego jak „prawdopodobieństwo” - jest to tylko pewne przybliżenie niepewności wokół nas i istnieją również alternatywne sposoby przybliżenia, takie jak np. Logika rozmyta (patrz Kosko, 1993 do dyskusji). Nawet bardzo podstawowe narzędzia i twierdzenia, na których opierają się nasze metody, są przybliżeniami i nie są jedynymi możliwymi. Po prostu nie możemy być pewni w takiej konfiguracji.
Reguła zatrzymywania, której szukasz, jest zawsze specyficzna dla problemu i subiektywna, tzn. Oparta na tak zwanym profesjonalnym osądzie. Nawiasem mówiąc, istnieje wiele przykładów badań, które wykazały, że profesjonaliści często nie są lepsi, a czasem nawet gorsi w ocenie niż laicy (np. Ożywiani w dokumentach i książkach Daniela Kahnemana ), a jednocześnie są bardziej podatni na nadmierną pewność siebie (to w rzeczywistości argument o tym, dlaczego powinniśmy nie starają się być „pewny” o naszych modelach).
Kosko, B. (1993). Myślenie rozmyte: nowa nauka logiki rozmytej. Nowy Jork: Hyperion.
źródło
Istnieje całe pole zwane statystyką nieparametryczną, które pozwala uniknąć użycia silnych modeli. Jednak Twoja obawa dotycząca dopasowania modeli jako takich jest uzasadniona. Niestety nie ma mechanicznej procedury dopasowywania modeli, która byłaby powszechnie akceptowana jako „optymalna”. Na przykład, jeśli chcesz zdefiniować model, który maksymalizuje prawdopodobieństwo twoich danych, zostaniesz poprowadzony do funkcji rozkładu empirycznego.
Jednak zwykle mamy pewne założenia i ograniczenia tła, takie jak ciągły ze skończonymi pierwszymi i drugimi momentami. W takich przypadkach jednym podejściem jest wybranie miary, takiej jak Entropia różnicowa Shannona i maksymalizacja jej w przestrzeni ciągłych rozkładów, które spełniają twoje ograniczenia brzegowe.
Chciałbym zwrócić uwagę, że jeśli nie chcesz tylko domyślnie obsługiwać ECDF, musisz dodać założenia, poza danymi, aby się tam dostać, a to wymaga specjalistycznej wiedzy merytorycznej i tak , przerażający ..... profesjonalny osąd
Czy jest zatem gwarantowany punkt zatrzymania modelowania ... odpowiedź brzmi „nie”. Czy jest wystarczająco dobre miejsce, aby się zatrzymać? Zasadniczo tak, ale ten punkt będzie zależeć nie tylko od danych i niektórych dezyderat statystycznych, zwykle bierze się pod uwagę ryzyko różnych błędów, techniczne ograniczenia wdrażania modeli oraz wiarygodność ich szacunków, itp.
Jak zauważył @Luca, zawsze możesz uśrednić klasę modeli, ale, jak słusznie zauważyłeś, przesunie to pytanie na wyższy poziom hiperparametrów. Niestety wydaje się, że żyjemy w nieskończenie warstwowej cebuli ... w obu kierunkach!
źródło