Regulararyzacja Tichonowa i regresja kalenicowa to terminy często używane tak, jakby były identyczne. Czy można dokładnie określić
Regulararyzacja Tichonowa i regresja kalenicowa to terminy często używane tak, jakby były identyczne. Czy można dokładnie określić
Wyobrażam sobie, że im większy współczynnik dla zmiennej, tym większa zdolność modelu do „kołysania się” w tym wymiarze, co zapewnia większą możliwość dopasowania hałasu. Chociaż myślę, że mam rozsądne wyczucie związku między wariancją w modelu a dużymi współczynnikami, nie mam tak dobrego...
Na przykład podczas regresji, dwoma hiperparametrami do wyboru są często pojemność funkcji (np. Największy wykładnik wielomianu) i ilość regularyzacji. Jestem zdezorientowany, dlaczego nie po prostu wybrać funkcję niskiej pojemności, a następnie zignorować jakąkolwiek regularyzację? W ten sposób...
Uwaga: Wiem, że L1 ma właściwość wyboru funkcji. Próbuję zrozumieć, który wybrać, gdy wybór funkcji jest całkowicie nieistotny. Jak zdecydować, której regularyzacji (L1 lub L2) użyć? Jakie są zalety i wady każdej z regulacji L1 / L2? Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a...
Korzystam z funkcji auto.arima () w pakiecie prognozy , aby dopasować modele ARMAX do różnych zmiennych towarzyszących. Jednak często mam dużą liczbę zmiennych do wyboru i zwykle kończę na ostatecznym modelu, który działa z ich podzbiorem. Nie lubię technik ad hoc do wybierania zmiennych, ponieważ...
Chciałbym użyć GLM i elastycznej sieci, aby wybrać te istotne cechy + zbudować model regresji liniowej (tj. Zarówno przewidywanie, jak i zrozumienie, więc lepiej byłoby pozostawić stosunkowo niewiele parametrów). Wyjście jest ciągłe. To genów na przypadków. Czytałem o pakiecie, ale nie jestem w...
Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja: 1) Interpretowalność współczynników. 2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu. 3) Nie ma potrzeby przechwytywania. Ale zastanawiam...
Problem lasso ma rozwiązanie w formie zamkniętej: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + jeśli X ma kolumny ortonormalne. Pokazano to w tym wątku: Wyprowadzenie zamkniętego rozwiązania lasso
Ukończyłem kurs uczenia maszynowego Andrew Nga około rok temu, a teraz piszę moje badanie matematyki w szkole średniej na temat działania regresji logistycznej i technik optymalizacji wydajności. Jedną z tych technik jest oczywiście regularyzacja. Celem regularyzacji jest zapobieganie nadmiernemu...
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...
Czytałem w wielu odnośnikach, że oszacowanie Lasso dla wektora parametru regresji jest równoważne trybowi tylnemu w którym poprzedni rozkład dla każdego jest podwójnym wykładniczym (znanym również jako rozkład Laplace'a).BBBBBBBiBiB_i Próbowałem to udowodnić, czy ktoś może dopracować...
Kiedy przedstawiam studentom koncepcje, często fajnie jest powiedzieć im, skąd pochodzi terminologia (na przykład „regresja” to termin o ciekawym pochodzeniu). Nie byłem w stanie podnieść historii / tła terminu „regularyzacja” w statystycznym / uczeniu maszynowym. Jakie jest zatem pochodzenie...
Oryginalny papier elastycznej siatki Zou & Hastie (2005) Regularyzacja i wybór zmiennych za pomocą elastycznej siatki wprowadzono funkcję elastycznej utraty siatki dla regresji liniowej (tutaj zakładam, że wszystkie zmienne są wyśrodkowane i skalowane do wariancji jednostkowej): ale nazwał to...
Kiedyś słyszałem metodę podwójnego użycia lassa (jak podwójne lasso), w której wykonuje się lasso na oryginalnym zestawie zmiennych, powiedzmy S1, uzyskuje rzadki zbiór o nazwie S2, a następnie ponownie wykonuje lasso na zestawie S2, aby uzyskać zestaw S3 . Czy istnieje na to termin metodologiczny?...
Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ prawo) .k β l y y o = ( β l e s o 1 , β l y y...
Załóżmy, że używam regresji . Dlaczego, wybierając najlepsze głównych składników , model zachowuje moc predykcyjną na ?Y∼XY∼XY \sim XkkkXXXYYY Rozumiem, że z punktu widzenia redukcji wymiarów / wyboru cech, jeśli są wektorami własnymi macierzy kowariancji X z najwyższymi wartościami własnymi k ,...
Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że...
Załóżmy, że mam zestaw danych do nadzorowanego zadania klasyfikacji statystycznej, np. Za pomocą klasyfikatora Bayesa. Ten zestaw danych składa się z 20 elementów i chcę sprowadzić go do 2 elementów za pomocą technik redukcji wymiarów, takich jak analiza głównych składników (PCA) i / lub liniowa...
Zadano mi więc pytanie, na podstawie których oszacowano centralne miary L1 (tj. Lasso) i L2 (tj. Regresja grzbietu). Odpowiedź to L1 = mediana i L2 = średnia. Czy jest w tym coś intuicyjnego? A może trzeba to ustalić algebraicznie? Jeśli tak, jak mam to
Rozumiem, jaką rolę odgrywa lambda w regresji sieci elastycznej. Rozumiem, dlaczego należy wybrać lambda.min, wartość lambda, która minimalizuje błąd zwalidowany krzyżowo. Moje pytanie brzmi: gdzie w literaturze statystycznej zaleca się stosowanie lambda.1se, czyli takiej wartości lambda, która...