Czytam książki o regresji liniowej. Istnieje kilka zdań na temat norm L1 i L2. Znam je, po prostu nie rozumiem, dlaczego norma L1 dla rzadkich modeli. Czy ktoś może użyć prostego
Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Czytam książki o regresji liniowej. Istnieje kilka zdań na temat norm L1 i L2. Znam je, po prostu nie rozumiem, dlaczego norma L1 dla rzadkich modeli. Czy ktoś może użyć prostego
Szukam nietechnicznej definicji lasso i do czego
Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to ,...
W przeciwieństwie do innych artykułów, znalazłem wpis w Wikipedii dla tego tematu nieczytelny dla osoby niebędącej matematyką (jak ja). Zrozumiałem podstawową ideę, że faworyzujesz modele o mniejszej liczbie zasad. Nie rozumiem, jak przejść z zestawu reguł do „wyniku regularyzacji”, którego można...
Czytam to i intuicyjnie widzę to, ale jak przejść od regularyzacji L2 do stwierdzenia, że analitycznie jest to Przeor Gaussa? To samo dotyczy twierdzenia, że L1 jest równoważne wcześniejszemu Laplaceanowi. Wszelkie dalsze odniesienia byłyby świetne.
W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości...
Ilekroć stosuje się regularyzację, jest ona często dodawana do funkcji kosztu, na przykład w poniższej funkcji kosztu. Ma to dla mnie intuicyjny sens, ponieważ minimalizuję funkcja kosztu oznacza minimalizację błędu (lewy element) i minimalizację wielkości współczynników (prawy element) w tym...
W tradycyjnej statystyce, budując model, sprawdzamy wielokoliniowość za pomocą metod takich jak szacunki współczynnika inflacji wariancji (VIF), ale w uczeniu maszynowym zamiast tego używamy regularyzacji do wyboru funkcji i nie wydaje się, aby sprawdzać, czy cechy są skorelowane w ogóle. Dlaczego...
Regularność za pomocą metod takich jak Ridge, Lasso, ElasticNet jest dość powszechna w przypadku regresji liniowej. Chciałem wiedzieć, co następuje: Czy te metody mają zastosowanie do regresji logistycznej? Jeśli tak, to czy istnieją jakieś różnice w sposobie ich wykorzystania do regresji...
Momentum służy do zmniejszenia wahań zmian masy w kolejnych iteracjach:αα\alpha gdzieE(w)jest funkcją błędu,w- wektor wag,η- szybkość uczenia się.Δ ωja( t + 1 ) = - η∂mi∂wja+ α Δ ωja( t ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta...
Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej. Znam rozwiązanie regresji bez terminu regularyzacji: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje
Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące. „Jedna standardowa reguła błędu” jest stosowana...
Problem, który często pojawiałem się w kontekście sieci neuronowych, w szczególności sieci neuronowych, polega na tym, że są „głodne danych” - to znaczy, że nie działają one dobrze, chyba że mamy duży zestaw danych z którymi trenować sieć. Rozumiem, że wynika to z faktu, że sieci sieciowe,...
Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”. Rozumiem, dlaczego lasso może być pożądane: skutkuje...
Jestem tylko ciekawy, dlaczego zwykle norm i . Czy istnieją dowody, dlaczego są one
Próbuję dopasować wielowymiarowy model regresji liniowej z około 60 zmiennymi predykcyjnymi i 30 obserwacjami, więc używam pakietu glmnet do regresji regularnej, ponieważ p> n. Przeglądałem dokumentację i inne pytania, ale nadal nie mogę zinterpretować wyników, oto przykładowy kod (z 20...
Czy elastyczna regularyzacja sieci jest zawsze lepsza niż Lasso i Ridge, ponieważ wydaje się, że rozwiązuje ona wady tych metod? Czym jest intuicja i jaka matematyka kryje się za elastyczną
Wyobrażam sobie, że im większy współczynnik dla zmiennej, tym większa zdolność modelu do „kołysania się” w tym wymiarze, co zapewnia większą możliwość dopasowania hałasu. Chociaż myślę, że mam rozsądne wyczucie związku między wariancją w modelu a dużymi współczynnikami, nie mam tak dobrego...
Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.
Czy ktoś może polecić dobre przedstawienie teorii stojącej za częściową regresją najmniejszych kwadratów (dostępną online) dla kogoś, kto rozumie SVD i PCA? Przejrzałem wiele źródeł online i nie znalazłem niczego, co miałoby właściwe połączenie rygorystyczności i dostępności. Przyjrzałem się...