Czy prywatna tabela liderów Kaggle jest dobrym predyktorem wydajności poza próbą zwycięskiego modelu?

16

Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego?

Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki nadmiernego dopasowania testów historycznych na wyniki poza próbą” autorstwa Bailey i in. stosunkowo łatwo jest „dopasować”, wybierając najlepsze z dużej liczby modeli ocenianych w tym samym zestawie danych. Czy to nie dzieje się z prywatną tabelą wyników Kaggle?

  • Jakie są statystyczne uzasadnienia dla najlepiej działających modeli na prywatnej tablicy wyników, które są modelami, które uogólniają najlepsze dane poza próbą?
  • Czy firmy faktycznie używają zwycięskich modeli, czy też prywatna tabela liderów ma na celu jedynie zapewnienie „reguł gry”, a firmy są bardziej zainteresowane wglądem wynikającym z dyskusji na temat problemu?
spłukać
źródło
1
Nieco powiązane: stats.stackexchange.com/q/235591
Kodiologist
2
Możesz spojrzeć na różnicę między wynikami prywatnymi i publicznymi. Można argumentować, że niedopasowany model powinien osiągnąć podobną wydajność w obu zestawach danych.
shadowtalker
2
@shadowtalker To rzeczywiście byłby dobry sposób na wykrycie nadmiernego dopasowania, ale tak naprawdę interesuje nas moc predykcyjna modelu, a nie stopień nadmiernego dopasowania. Model overfit - tj. Taki, który działa znacznie lepiej w próbie niż poza próbką - może mieć lepszą wydajność poza próbką niż model, który nie jest nadmierny. Nie mam pod ręką referencji, ale uważam, że często zdarza się to w złożonych domenach, np. Widzenie komputerowe, przy użyciu złożonych modeli, np. CNN.
rinspy

Odpowiedzi:

10

Cóż, przedstawione przez ciebie punkty są uczciwe, ale myślę, że jest znacznie bardziej realny problem z ludźmi, którzy są zbyt dobrzy w publicznej tabeli wyników .

Może się to zdarzyć, gdy wykonasz około 100 zgłoszeń, publiczny zestaw testowy ostatecznie wykrwawi się na twoim wyborze hiperparametrów, a tym samym się przełączy. Myślę, że pod tym względem niezbędny jest prywatny lider.

M Sef
źródło