Prowadząc model regresji liniowej za pomocą funkcji straty, dlaczego powinienem używać zamiast regularyzacji ?
Czy lepiej jest zapobiegać przeuczeniu? Czy jest deterministyczny (więc zawsze jest unikalnym rozwiązaniem)? Czy jest lepszy w wyborze funkcji (ponieważ produkuje rzadkie modele)? Czy rozkłada wagi między funkcjami?
linear-regression
regularization
astudentofmaths
źródło
źródło
Odpowiedzi:
Zasadniczo dodajemy termin regularyzacji, aby zapobiec tak doskonałemu dopasowaniu współczynników do nadmiernego dopasowania.
Różnica między L1 i L2 to L1 to suma wag, a L2 to tylko suma kwadratów wag.
L1 nie może być stosowane w podejściach opartych na gradiencie, ponieważ nie można go odróżnić w przeciwieństwie do L2
L1 pomaga dokonywać wyboru funkcji w rzadkich przestrzeniach funkcji. Wybór funkcji polega na tym, aby wiedzieć, które funkcje są pomocne, a które nadmiarowe.
Różnicę między ich właściwościami można podsumować jako:
źródło
L2 ma jedną bardzo ważną zaletę dla L1, a mianowicie niezmienność rotacji i skali.
Jest to szczególnie ważne w zastosowaniu geograficznym / fizycznym.
Powiedzmy, że Twój technik przypadkowo zainstalował czujnik w kącie 45 stopni, wpłynie to na L1, podczas gdy L2 (odległość euklidesowa) pozostanie taki sam.
źródło