Słyszałem wcześniej następujące wyrażenie:
„Optymalizacja jest źródłem wszelkiego zła w statystykach”.
Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu.
Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej)
Z tego, co rozumiem, oświadczenie odnosi się do ryzyka nadmiernego dopasowania. Tradycyjna mądrość mówi, że właściwa walidacja krzyżowa już zwalcza ten problem, ale wygląda na to, że w tym problemie jest coś więcej.
Czy statystycy i praktycy ML powinni obawiać się nadmiernej optymalizacji swoich modeli, nawet jeśli przestrzegają ścisłych protokołów krzyżowej weryfikacji (np. 100 zagnieżdżonych 10-krotnych CV)? Jeśli tak, to skąd wiemy, kiedy przestać szukać „najlepszego” modelu?
źródło
Odpowiedzi:
Cytat jest parafrazą cytatu Donalda Knutha , który sam przypisał Hoare. Trzy fragmenty z powyższej strony:
Nie wiem, czy zgadzam się z parafrazą statystyczną *. W statystykach jest mnóstwo „zła”, które nie dotyczy optymalizacji.
Myślę, że najważniejsze jest pełne zrozumienie (lub tak pełne, jak to możliwe) właściwości podejmowanych procedur.
źródło
Kilka sposobów parsowania cytatu (w statystykach), przy założeniu, że optymalizacja odnosi się do wyboru modelu (opartego na danych):
źródło