Optymalizacja: źródło wszelkiego zła w statystykach?

14

Słyszałem wcześniej następujące wyrażenie:

„Optymalizacja jest źródłem wszelkiego zła w statystykach”.

Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu.

Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej)

Z tego, co rozumiem, oświadczenie odnosi się do ryzyka nadmiernego dopasowania. Tradycyjna mądrość mówi, że właściwa walidacja krzyżowa już zwalcza ten problem, ale wygląda na to, że w tym problemie jest coś więcej.

Czy statystycy i praktycy ML powinni obawiać się nadmiernej optymalizacji swoich modeli, nawet jeśli przestrzegają ścisłych protokołów krzyżowej weryfikacji (np. 100 zagnieżdżonych 10-krotnych CV)? Jeśli tak, to skąd wiemy, kiedy przestać szukać „najlepszego” modelu?

Amelio Vazquez-Reina
źródło
Drugie pytanie zdecydowanie jednak samo w sobie stoi, prawda?
russellpierce
@Glen_b Zostawiłem referencję w tym wątku. Ale żeby to wyjaśnić, Dikran już zasugerował, aby w odpowiedzi na pytania odpowiedzieć w oddzielnych wątkach i wątpię, aby na to pytanie odpowiedzieć w komentarzu.
Amelio Vazquez-Reina,
3
@ RussellS.Pierce Edycja, która zawierała pytanie w obecnym kształcie - mimo że została wykonana przed moim komentarzem - nie była tam, kiedy go załadowałem i zacząłem badać oryginalne pytanie i możliwe odpowiedzi, miał tylko to, co opisałbym jako retoryczne pytanie. Pytanie w obecnej formie jest w porządku.
Glen_b
2
Kwestia weryfikacji krzyżowej została omówiona w innym pytaniu tutaj: stats.stackexchange.com/questions/29354/… Walidacja krzyżowa może pomóc uniknąć nadmiernego dopasowania, ale nie rozwiązuje problemu całkowicie. Wiedza, kiedy przestać, może być zdecydowanie trudnym problemem i nie sądzę, że może być ogólne rozwiązanie.
Dikran Marsupial
1
„odpowiednia walidacja krzyżowa już zwalcza ten problem, ale wygląda na to, że problem ten ma coś więcej”. Tak: problemem jest nadal wariancja oszacowań krzyżowych (w połączeniu z problematycznym testowaniem wielokrotnym). Jeśli znajdę czas, napiszę odpowiedź na powiązane pytanie.
cbeleites obsługuje Monikę

Odpowiedzi:

14

Cytat jest parafrazą cytatu Donalda Knutha , który sam przypisał Hoare. Trzy fragmenty z powyższej strony:

Przedwczesna optymalizacja jest źródłem wszelkiego zła (a przynajmniej większości) w programowaniu.

Przedwczesna optymalizacja jest źródłem wszelkiego zła.

Knuth nazywa to „Hoare's Dictum” 15 lat później ...

Nie wiem, czy zgadzam się z parafrazą statystyczną *. W statystykach jest mnóstwo „zła”, które nie dotyczy optymalizacji.

Czy statystycy i praktycy ML powinni zawsze uważać na nadmierną optymalizację swoich modeli, nawet jeśli przestrzegają ścisłych protokołów krzyżowej weryfikacji (np. 100 zagnieżdżonych 10-krotnych CV)? Jeśli tak, to skąd wiemy, kiedy przestać szukać „najlepszego” modelu?

Myślę, że najważniejsze jest pełne zrozumienie (lub tak pełne, jak to możliwe) właściwości podejmowanych procedur.

* Nie zamierzam komentować użycia Knutha, ponieważ niewiele mogę powiedz, że nie mógł słusznie twierdzić, że rozumie dziesięć razy tak dobrze jak ja.

Glen_b - Przywróć Monikę
źródło
2
Dzięki, to jest pomocne. Myślę, że istnieje kilka interesujących powiązań między optymalizacją przedwczesną w programowaniu a nadmiernym dopasowaniem. Zastanawiam się, czy w naszej społeczności są podobne cytaty i czy istnieje rygorystyczny sposób walki z tym w statystykach.
Amelio Vazquez-Reina,
5
Moje użycie tego wyrażenia zostało zainspirowane przez Knutha, chociaż powód jest inny iz perspektywy Bayesa właściwie cała optymalizacja jest zła, a marginalizacja jest lepsza.
Dikran Torbacz
3

Kilka sposobów parsowania cytatu (w statystykach), przy założeniu, że optymalizacja odnosi się do wyboru modelu (opartego na danych):

  • Jeśli zależy Ci na prognozowaniu, lepiej będzie, jeśli uśrednisz model niż wybierzesz pojedynczy model.
  • Jeśli wybierzesz model na tym samym zbiorze danych używane w celu dopasowania modelu, będzie siać spustoszenie na zwykłych narzędzi wnioskowania / procedur, które zakładam, że wybrał model a priori . (Powiedzmy, że wykonujesz regresję krokową, wybierając rozmiar modelu poprzez krzyżową walidację. W przypadku analizy Frequentist zwykłe wartości p lub CI dla wybranego modelu będą niepoprawne. Jestem pewien, że istnieją podobne problemy dla analiz bayesowskich, które dotyczą modelu wybór.)
  • Jeśli Twój zestaw danych jest wystarczająco duży w porównaniu do rozważanej rodziny modeli, przeregulowanie może nawet nie stanowić problemu, a wybór modelu może być niepotrzebny. (Załóżmy, że dopasujesz regresję liniową przy użyciu zestawu danych z kilkoma zmiennymi i bardzo wieloma obserwacjami. Wszelkie fałszywe zmienne powinny i tak uzyskać współczynniki oszacowane na poziomie zbliżonym do 0, więc być może nie musisz nawet zawracać sobie głowy wyborem mniejszego modelu.)
  • Jeśli Twój zestaw danych jest wystarczająco mały, możesz nie mieć wystarczającej ilości danych, aby dopasować się do „prawdziwego” lub „najlepszego” modelu problemu. Co w takim razie znaczy właściwie dobra selekcja modeli? (Powrót do regresji liniowej: należy dążyć, aby wybrać „prawdziwą” model z odpowiednich zmiennych, nawet jeśli nie masz wystarczająco dużo danych, aby mierzyć je wszystkie odpowiednio należy po prostu wybrać największy model, dla którego nie ma wystarczających danych ?)
  • Wreszcie, nawet jeśli jest jasne, że możesz i powinieneś dokonać wyboru modelu, weryfikacja krzyżowa nie jest panaceum. Ma wiele wariantów, a nawet własny parametr strojenia (liczba zgięć lub stosunek pociąg: test), który wpływa na jego właściwości. Więc nie ufaj temu ślepo.
Civilstat
źródło