Pytanie o kompromis wariancji odchylenia i sposoby optymalizacji

7

Zastanawiałem się więc, w jaki sposób można na przykład zoptymalizować model, który próbują zbudować, gdy napotykają problemy wynikające z dużej stronniczości lub dużej wariancji. Teraz oczywiście możesz grać z parametrem regularyzacyjnym, aby osiągnąć satysfakcjonujący koniec, ale zastanawiałem się, czy można to zrobić bez polegania na regularyzacji.

Jeśli b jest estymatorem odchylenia modelu i v jego wariancji, czy nie ma sensu próbować minimalizować b * v?

Zer0k
źródło

Odpowiedzi:

8

Istnieje wiele sposobów na zminimalizowanie uprzedzeń i wariancji i pomimo popularnego powiedzenia, że ​​nie zawsze jest to kompromis.

Dwoma głównymi przyczynami wysokiego odchylenianiewystarczająca pojemność modelu i niedostateczne dopasowanie, ponieważ faza szkolenia nie została ukończona. Na przykład, jeśli masz bardzo skomplikowany problem do rozwiązania (np. Rozpoznawanie obrazu) i używasz modelu o niskiej pojemności (np. Regresja liniowa), model ten miałby duże odchylenie w wyniku tego, że model nie byłby w stanie zrozumieć złożoności problem.

Głównym powodem dużej wariancji jest nadmierne dopasowanie do zestawu treningowego.

Biorąc to pod uwagę, istnieją sposoby zmniejszenia zarówno błędu systematycznego, jak i wariancji w modelu ML. Na przykład najłatwiejszym sposobem osiągnięcia tego jest uzyskanie większej ilości danych (w niektórych przypadkach nawet pomoc danych syntetycznych).

W praktyce robimy to:

  • Po pierwsze, zwiększamy pojemność modelu, aby maksymalnie ograniczyć wariancję zestawu treningowego. Innymi słowy, chcemy sprawić, by model się dopasował (nawet osiągnąć utratę 0 na zestawie treningowym). Odbywa się to, ponieważ chcemy upewnić się, że model ma zdolność wystarczającego zrozumienia danych.

  • Następnie staramy się zmniejszyć stronniczość . Odbywa się to poprzez regularyzację ( wcześniejsze zatrzymanie , kary normalne , rezygnacja itp.)

Djib2011
źródło
1
Żeby było jasne, więcej danych nie oznacza wyłącznie więcej przykładów, ale może być więcej funkcji dla bieżących przykładów, prawda?
Zer0k
4
Właściwie miałem na myśli więcej przykładów, ale masz rację, jeśli możesz zmierzyć więcej (znaczących) funkcji dla bieżących przykładów, z pewnością poprawiłbyś wydajność swojego modelu.
Djib2011