Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące:
- Regresja z regularyzacją L1 lub regularyzacją L2
- LASSO
- Regresja kalenicy
Więc moje pytania:
Czy regresja z regularyzacją L1 jest dokładnie taka sama jak LASSO?
Czy regresja z regularyzacją L2 jest dokładnie taka sama jak regresja Ridge'a?
Jak używa się „LASSO” na piśmie? Czy powinna to być „regresja LASSO”? Widziałem takie użycie, jak „ lasso jest bardziej odpowiednie ”.
Jeśli odpowiedź brzmi „tak” dla 1 i 2 powyżej, to dlaczego istnieją różne nazwy dla tych dwóch terminów? Czy „L1” i „L2” pochodzą z informatyki / matematyki, a „LASSO” i „Ridge” ze statystyk?
Użycie tych terminów jest mylące, gdy widzę posty takie jak:
„ Jaka jest różnica między regularyzacją L1 i L2? ” (Quora.com)
„ Kiedy powinienem używać lasso kontra grzbiet? ” (Stats.stackexchange.com)
źródło
Odpowiedzi:
Tak.
Tak.
LASSO to akronim (najmniej bezwzględny operator skurczu i selekcji), więc powinien być pisany wielkimi literami, ale współczesne pisanie jest leksykalnym odpowiednikiem Mad Maxa . Z drugiej strony Amoeba pisze, że nawet statystycy, którzy wymyślili pojęcie LASSO, używają teraz renderowania małymi literami (Hastie, Tibshirani i Wainwright, Statistics Learning with Sparsity ). Można jedynie spekulować co do motywacji zmiany. Jeśli piszesz dla prasy akademickiej, zazwyczaj mają przewodnik po stylu dla tego rodzaju rzeczy. Jeśli piszesz na tym forum, jedno z nich jest w porządku i wątpię, czy ktokolwiek naprawdę to obchodzi.
zapis jest odniesienie do norm Minkowskiego i przestrzeni. Po prostu uogólniają pojęcie taksówek i odległości euklidesowe do w następującym wyrażeniu: Co ważne, tylko określa odległość metryczną; nie spełnia nierówności trójkąta, więc według większości definicji nie jest to odległość.L. L.p p > 0 p≥10<p<1
Nie jestem pewien, kiedy połączenie pomiędzy grzbietem a LASSO zostało zrealizowane.
Jeśli chodzi o to, dlaczego istnieje wiele nazw, to tylko kwestia, że metody te rozwinęły się w różnych miejscach w różnych momentach. Częstym tematem w statystykach jest to, że pojęcia często mają wiele nazw, po jednej dla każdego podpola, w którym zostało niezależnie odkryte (funkcje jądra vs funkcje kowariancji, regresja procesu Gaussa vs Kriging, AUC vs statystyka). Regresję grzbietu należy prawdopodobnie nazwać regularyzacją Tichonowa, ponieważ uważam, że ma najwcześniejsze prawo do tej metody. Tymczasem LASSO zostało wprowadzone dopiero w 1996 roku, znacznie później niż metoda „grzbietu” Tichonowa!c
źródło