Czy są jakieś dobre artykuły lub książki dotyczące wykorzystania opadania współrzędnych dla L1 (lasso) i / lub regularyzacji elastycznej siatki dla problemów z regresją
Czy są jakieś dobre artykuły lub książki dotyczące wykorzystania opadania współrzędnych dla L1 (lasso) i / lub regularyzacji elastycznej siatki dla problemów z regresją
Chciałbym zadać to pytanie w dwóch częściach. Oba dotyczą uogólnionego modelu liniowego, ale pierwszy dotyczy wyboru modelu, a drugi dotyczy regularyzacji. Tło: Używam modeli GLM (liniowych, logistycznych, regresji gamma) zarówno do prognozowania, jak i do opisu. Kiedy odnoszę się do „ normalnych...
argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc Czy istnieje podobne twierdzenie dotyczące lasso? Jeśli istnieje takie twierdzenie, nie tylko zagwarantuje ono stabilność lasso, ale także zapewni lasso bardziej sensowną...
Ostatnio widziałem wiele artykułów na temat rzadkich reprezentacji, a większość z nich używa normy i dokonuje pewnych minimalizacji. Moje pytanie brzmi: co to jest norma , a norma ? A w jaki sposób mają one znaczenie dla regularyzacji?ℓ pℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p,...
Czy ktoś może skierować mnie w stronę internetowego (rekurencyjnego) algorytmu regularyzacji Tichonowa (uregulowane najmniejsze kwadraty)? W trybie offline obliczyłem β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY przy użyciu mojego oryginalnego zestawu danych, w którym znaleziono...
Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej? Oto moje pytanie: O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie...
Aby zapobiec nadmiernemu dopasowywaniu się ludzi, dodaj funkcję regularyzacji (proporcjonalną do kwadratowej sumy parametrów modelu) z parametrem regularyzacji do funkcji kosztu regresji liniowej. Czy ten parametr taki sam jak mnożnik lagrange'a? Czy zatem regularyzacja jest taka sama jak metoda...
Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć...
Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO. W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich....
Coraz częściej słyszę te słowa, ucząc się uczenia maszynowego. W rzeczywistości niektórzy ludzie zdobyli medal Fieldsa, pracując nad prawidłowością równań. Sądzę więc, że jest to termin, który przenosi się z fizyki statystycznej / matematyki na uczenie maszynowe. Oczywiście wiele osób, o które...
Szukam literatury na temat negatywnej regresji kalenicy . W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających λλ\lambda we wzorze β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte w zeszłym roku . Jakie implementacje typu open source - w...
Przez techniki regularyzacji mam na myśli lasso, regresję grzbietu, elastyczną siatkę i tym podobne. Rozważ model prognostyczny dotyczący danych opieki zdrowotnej zawierający dane demograficzne i dane diagnostyczne, w których przewiduje się długość pobytu w przypadku hospitalizacji. Dla niektórych...
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy...
Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning . W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby...
Korzystam z dwukierunkowego RNN, aby wykryć zdarzenie niezrównoważonego wystąpienia. Klasa dodatnia jest 100 razy rzadziej niż klasa negatywna. Chociaż nie używa się regularyzacji, mogę uzyskać 100% dokładności na zestawie pociągów i 30% na zestawie walidacji. Włączam regularyzację l2, a wynik to...
Byłem ostatnio na kilku rozmowach statystycznych na temat Lasso (regularyzacja), a kwestią, która wciąż się pojawia, jest to, że tak naprawdę nie rozumiemy, dlaczego Lasso działa lub dlaczego działa tak dobrze. Zastanawiam się, do czego odnosi się to oświadczenie. Oczywiście rozumiem, dlaczego...
Jeśli mam macierz projektową , gdzie jest liczbą obserwacji wymiaru , jaka jest złożoność rozwiązania dla z Lasso wrt i ? Myślę, że odpowiedź powinna odnosić się do tego, jak jedna iteracja LASSO skaluje się z tymi parametrami, a nie do tego, jak skaluje się liczba iteracji (zbieżności), chyba że...
W kilku odpowiedziach widziałem, jak użytkownicy CrossValidated sugerują OP znaleźć wczesne artykuły na temat Lasso, Ridge i Elastic Net. Dla potomnych, jakie są przełomowe prace na temat Lasso, Ridge i Elastic Net?
W notatkach z 3 wykładów z kursu Coursera Machine Learning Andrew Ng do funkcji kosztów dodawany jest termin w celu wdrożenia regularyzacji: jot+( θ ) = J( θ ) +λ2 m∑j = 1nθ2)jotJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 Notatki z wykładu mówią:...