Dobrze wiadomo (np. W dziedzinie wykrywania kompresji), że norma „indukuje ” w tym sensie, że jeśli zminimalizujemy funkcjonalność (dla stałej macierzy i wektora ) dla wystarczająco dużych \ lambda> 0 , prawdopodobnie istnieje wiele opcji A , \ vec {b} , a \ lambda ma wiele dokładnie zerowych pozycji w wynikowym \ vec {x} . A → b f A , → b ( → x ) = ‖ A → x - → b ‖ 2 2 + λ ‖ → x ‖ 1 λ > 0 A → b λ → x
Ale jeśli zminimalizujemy pod warunkiem, że wpisy w są dodatnie i sumują się do , to termin nie ma żadnego wpływu (ponieważ przez fiat). Czy istnieje analogiczny typu L_1, który działa w tym przypadku, aby zachęcić, że wynikowy jest rzadki?
regression
matrix
normalization
regularization
sparse
Justin Solomon
źródło
źródło
Odpowiedzi:
Ogólna metoda tworzenia rzadkich rozwiązań polega na oszacowaniu MAP przy zerowej średniej normalnej przed nieznaną wariancją.
Jeśli następnie przypiszesz przed który ma tryb zerowy, wtedy tryb tylny jest zwykle rzadki. wynika z tego podejścia, biorąc wykładniczy rozkład mieszania.σ2i L1
To dostajesz
Niektóre alternatywy to uogólnione podwójne pareto, pół cauchy, odwrócona beta. W pewnym sensie są one lepsze niż lasso, ponieważ nie zmniejszają dużych wartości. W rzeczywistości jestem prawie pewien, że uogólnione podwójne pareto można zapisać jako mieszaninę wykładników. Oznacza to, że piszemy a następnie umieszczamy wartość gamma przed p ( λ i | α β ) . Otrzymujemy:λ=λi p ( λja| αβ)
Zauważ, że uwzględniłem stałe normalizujące, ponieważ pomagają one wybrać dobre parametry globalne. Teraz, jeśli zastosujemy ograniczenie zakresu, będziemy mieli bardziej skomplikowany problem, ponieważ musimy renormalizować na simpleksie.
Inną ogólną cechą kar wywołujących rzadkość jest to, że nie można ich odróżnić od zera. Zwykle dzieje się tak, ponieważ lewy i prawy limit mają przeciwny znak.
Jest to oparte na genialnej pracy Nicolasa Polsona i Jamesa Scotta na temat reprezentacji wariancji średnich mieszanin, których używają do opracowania TIRLS - masywne rozszerzenie najmniejszych kwadratów do bardzo dużej klasy kombinacji strat i kar.
Alternatywnie można użyć wcześniejszego, który jest zdefiniowany na simpleksie, ale ma tryby w rozkładach krańcowych na zero. Jednym z przykładów jest rozkład dirichleta ze wszystkimi parametrami między 0 a 1. Implikowana kara wyglądałaby następująco:
Gdzie . Jednak trzeba zachować ostrożność przy optymalizacji numerycznej, ponieważ kara ma osobliwości. Bardziej solidnym procesem szacowania jest użycie średniej tylnej. Chociaż stracisz dokładną rzadkość, otrzymasz wiele tylnych środków, które są bliskie zeru. P0<ai<1
źródło
Dwie opcje:
źródło
źródło
Potrafię wymyślić trzy metody.
Metoda bayesowska: wprowadzenie zerowej średniej wcześniejszej dystrybucji i wykorzystanie prawdopodobieństwa typu II do oszacowania parametrów i parametrów hiperparametrów.
W rzeczywistości pierwsza i trzecia metoda są takie same.
źródło