Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego?
Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki nadmiernego dopasowania testów historycznych na wyniki poza próbą” autorstwa Bailey i in. stosunkowo łatwo jest „dopasować”, wybierając najlepsze z dużej liczby modeli ocenianych w tym samym zestawie danych. Czy to nie dzieje się z prywatną tabelą wyników Kaggle?
- Jakie są statystyczne uzasadnienia dla najlepiej działających modeli na prywatnej tablicy wyników, które są modelami, które uogólniają najlepsze dane poza próbą?
- Czy firmy faktycznie używają zwycięskich modeli, czy też prywatna tabela liderów ma na celu jedynie zapewnienie „reguł gry”, a firmy są bardziej zainteresowane wglądem wynikającym z dyskusji na temat problemu?
Odpowiedzi:
Cóż, przedstawione przez ciebie punkty są uczciwe, ale myślę, że jest znacznie bardziej realny problem z ludźmi, którzy są zbyt dobrzy w publicznej tabeli wyników .
Może się to zdarzyć, gdy wykonasz około 100 zgłoszeń, publiczny zestaw testowy ostatecznie wykrwawi się na twoim wyborze hiperparametrów, a tym samym się przełączy. Myślę, że pod tym względem niezbędny jest prywatny lider.
źródło