Szukam nietechnicznej definicji lasso i do czego
Uwzględnienie dodatkowych ograniczeń (zazwyczaj kara za złożoność) w procesie dopasowywania modelu. Służy do zapobiegania nadmiernemu dopasowaniu / zwiększania dokładności predykcyjnej.
Szukam nietechnicznej definicji lasso i do czego
Rozważ następujące trzy zjawiska. Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu,...
Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same...
Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} +...
W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości...
Jaka jest dokładna formuła zastosowana w R lm() dla skorygowanego kwadratu R? Jak mogę to zinterpretować? Skorygowane formuły r-kwadrat Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R. Wzór Wherry:1 - ( 1 - R2)) ( n - 1 )( n - v
Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja: 1) Interpretowalność współczynników. 2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu. 3) Nie ma potrzeby przechwytywania. Ale zastanawiam...
Oryginalny papier elastycznej siatki Zou & Hastie (2005) Regularyzacja i wybór zmiennych za pomocą elastycznej siatki wprowadzono funkcję elastycznej utraty siatki dla regresji liniowej (tutaj zakładam, że wszystkie zmienne są wyśrodkowane i skalowane do wariancji jednostkowej): ale nazwał to...
Kiedyś słyszałem metodę podwójnego użycia lassa (jak podwójne lasso), w której wykonuje się lasso na oryginalnym zestawie zmiennych, powiedzmy S1, uzyskuje rzadki zbiór o nazwie S2, a następnie ponownie wykonuje lasso na zestawie S2, aby uzyskać zestaw S3 . Czy istnieje na to termin metodologiczny?...
Regresja LASSO zmniejsza współczynniki do zera, zapewniając w ten sposób efektywny wybór modelu. Uważam, że w moich danych występują znaczące interakcje między zmiennymi nominalnymi i ciągłymi zmiennymi towarzyszącymi. Jednak niekoniecznie „główne efekty” prawdziwego modelu są znaczące (niezerowe)....
W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci...
Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam...
Czytałem o estymatorze Jamesa-Steina. W tych uwagach jest zdefiniowany jako θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Przeczytałem dowód, ale nie rozumiem następującego oświadczenia: Geometrycznie estymator Jamesa-Steina zmniejsza każdy składnik kierunku...
Mam pytanie dotyczące obliczania współczynnika James-Stein Kurczenie w 1977 Scientific American papierze Bradley Efron i Carl Morris, "Paradox Steina w Statistics" . Zebrałem dane dla graczy baseballowych i jest podany poniżej: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378,...
Regresja grzbietu szacuje parametry w modelu liniowym według gdzie jest parametrem regularyzacji. Dobrze wiadomo, że często działa lepiej niż regresja OLS (z \ lambda = 0 ), gdy istnieje wiele skorelowanych predyktorów.Y = X β β λ = ( X ⊤ X + λ I ) - 1 X ⊤ Y , λ λ = 0ββ\boldsymbol...
Jeśli zaczniemy od zestawu danych , zastosujemy do niego Lasso i uzyskamy rozwiązanie β L , możemy ponownie zastosować Lasso do zbioru danych ( X S , Y ) , gdzie S jest zbiorem niezerowym indeksy β L , aby uzyskać rozwiązanie β R L , zwane „zrelaksowanym rozwiązaniem LASSO” (poprawcie mnie, jeśli...
Uwielbia mnie koncepcja kurczenia się Jamesa-Steina (tzn. Że nieliniowa funkcja pojedynczej obserwacji wektora prawdopodobnie niezależnych normalnych może być lepszym estymatorem średnich zmiennych losowych, gdzie „lepszy” jest mierzony przez błąd kwadratu ). Jednak nigdy nie widziałem tego w pracy...
Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej ℓ1ℓ1\ell_1Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne...
Na tej stronie jest już post mówiący o tym samym problemie: Dlaczego działa skurcz? Ale mimo że odpowiedzi są popularne, nie sądzę, aby sedno pytania zostało naprawdę rozwiązane. Oczywiste jest, że wprowadzenie błędu systematycznego w estymacji powoduje zmniejszenie wariancji i może poprawić...
Słowo „skurcz” jest często rzucane w niektórych kręgach. Ale co to jest skurcz, wydaje się, że nie ma jasnej definicji. Jeśli mam szereg czasowy (lub jakąkolwiek kolekcję obserwacji jakiegoś procesu), jakie są różne sposoby pomiaru pewnego rodzaju skurczu empirycznego w szeregu? Jakie są rodzaje...