Analiza elastyczna / kalenica / lasso, co wtedy?

19

Naprawdę interesuje mnie procedura elastycznej siatki dla skurczenia / wyboru predyktora. Wydaje się bardzo potężny.

Ale z naukowego punktu widzenia nie wiem dobrze, co zrobić, gdy otrzymam współczynniki. Na jakie pytanie odpowiadam? Czy są to zmienne, które najbardziej wpływają na ten wynik i czy są to współczynniki, które dają najlepszy stosunek wariancji / odchylenia podczas walidacji?

Jest to oczywiście podejście bardzo opisowe / predykcyjne w porównaniu z klasycznym podejściem wartości p / przedziałów ufności. Wnioskowanie szacunkowe jest obecnie badane przez Tibshirani & Co., ale wciąż jest eksperymentalne.

Niektóre osoby używają zmiennych wybranych przez siatkę elastyczną do przeprowadzania klasycznej analizy wnioskowania, ale wyeliminowałoby to ograniczenie wariancji wynikające z tej techniki.

Innym problemem jest to, że ponieważ parametry lambda i alfa dla elastycznej siatki są wybierane przez krzyżową walidację, podlegają one losowej zmienności. Za każdym razem, gdy uruchamiasz (np.) Cv.glmnet (), wybierasz nieco inny podzbiór predyktorów o zawsze różnych współczynnikach.

Zastanawiałem się nad rozwiązaniem tego, biorąc pod uwagę właściwą lambda i alfa jako zmienne losowe i ponownie uruchom n-krok krok weryfikacji krzyżowej, aby uzyskać rozkład tych parametrów. W ten sposób dla każdego predyktora miałbym liczbę wystąpień, a dla każdego współczynnika miałbym rozkład wyników. To powinno dać mi bardziej ogólne wyniki ze statystykami zakresów (jak sd współczynników). Ciekawe byłoby również, czy lambda i alfa wybrały w ten sposób asymptotycznie przybliżenie do jakiegoś rozkładu, ponieważ otworzyłoby to drogę do testu wnioskowania (ale nie jestem statystykiem, więc nie powinienem mówić o rzeczach, które nie w pełni rozumiem).

Wreszcie moje pytanie brzmi: kiedy uzyskasz predyktory i współczynniki z elastycznej sieci z alfa i lambda na podstawie weryfikacji krzyżowej, które i jak należy przedstawić te wyniki? Jak je omówić? czego się nauczyliśmy? Jaką hipotezę / uogólnienie jesteśmy w błędzie?

Bakaburg
źródło
Myślę, że jest to zbyt szerokie / niejasne, aby odpowiednio odpowiedzieć. W niektórych przypadkach uważam, że twoje wypowiedzi są niejasne (np. Co rozumiesz przez „ ale to wyeliminuje ograniczenie wariancji wynikające z techniki ”), a w niektórych innych przypadkach wprowadzane w błąd (np. „Za każdym razem, gdy biegniesz (np.)) cv.glmnet () wybierzesz nieco inny podzbiór predyktorów o zawsze różnych współczynnikach "- tak nie jest za każdym razem, a nawet gdy to się zdarza, zwykle nie jest katastrofalne, biorąc pod uwagę, że CV zostało zrobione poprawnie.)
usεr11852 mówi Przywróć Monic
motywacja, którą widziałem w elastycznej siatce, wiązała ją ze zmiennym grupowaniem (poprzez rozdział 2.3 zou, hastie elastycznej siatki papierowej), który jest rozwinięty bardziej szczegółowo (poprzez nieco inną metodę) tutaj: ncbi.nlm.nih .gov / pmc / artykuły / PMC4011669
user795305

Odpowiedzi:

8

Metody te - lasso i elastyczna siatka - zrodziły się z problemów zarówno wyboru cech, jak i prognozowania. Sądzę, że dzięki tym dwóm soczewkom można znaleźć wyjaśnienie.

Matthew Gunn ładnie wyjaśnia w swojej odpowiedzi, że te dwa cele są różne i często podejmowane przez różnych ludzi. Jednak na szczęście dla nas metody, którymi jesteśmy zainteresowani, mogą działać dobrze na obu arenach.

Wybór funkcji

Najpierw porozmawiajmy o wyborze funkcji. Najpierw powinniśmy zmotywować elastyczną siatkę z perspektywy lasso. To znaczy, cytując Hastie i Zou , „Jeśli istnieje grupa zmiennych, wśród których korelacje par są bardzo wysokie, wówczas lasso ma tendencję do wybierania tylko jednej zmiennej z grupy i nie ma znaczenia, która z nich jest wybrana”. Jest to na przykład problem, ponieważ oznacza, że ​​prawdopodobnie nie znajdziemy elementu prawdziwego wsparcia za pomocą lasso - tylko jednego wysoce z nim skorelowanego. (Artykuł wspomina, że ​​jest to udowodnione w artykule LARS, którego jeszcze nie przeczytałem). Trudność odzyskania wsparcia w obecności korelacji jest również wskazana przez Wainwrighta ,0,5 gdy istnieje wysoka korelacja między prawdziwym wsparciem a jego uzupełnieniem.

Teraz kara 12 w siatce elastycznej zachęca cechy, których współczynniki są traktowane jako nierozróżnialne przez samą stratę i kara 11 do równego oszacowanego współczynnika. Możemy to swobodnie dostrzec, zauważając, że spełnia. Z tego powodu elastyczna siatka sprawia, że ​​jesteśmy mniej skłonni do „przypadkowego” uczynienia zniknięcia współczynnikiem szacunkowym, który jest prawdziwym wsparciem. Oznacza to, że prawdziwe wsparcie jest bardziej prawdopodobne w ramach szacowanego wsparcia. Dobre! To oznacza, że ​​jest więcej fałszywych odkryć, ale jest to cena, którą większość ludzi jest skłonna zapłacić.| a | = | b |(za,b)=argminza,b:do=|za|+|b|(za)2)+(b)2)|za|=|b|

Nawiasem mówiąc, warto zauważyć, że fakt, iż wysoce skorelowane cechy będą miały bardzo podobne oszacowania współczynników, sprawia, że ​​możemy wykrywać grupy cech w ramach szacowanego wsparcia, które wpływają podobnie na odpowiedź.

Prognoza

Teraz przechodzimy do przewidywania. Jak zauważa Matthew Gunn, wybór parametrów dostrajania poprzez krzyżową weryfikację stwarza cel wyboru modelu z minimalnym błędem prognozowania. Ponieważ dowolny model wybrany przez lasso można wybrać za pomocą elastycznej siatki (przyjmując ), sensowne jest, że elastyczna siatka jest w stanie znaleźć model, który przewiduje lepiej niż lasso.α=1

Lederer, Yu i Gaynanova pokazują, bez żadnych założeń dotyczących cech, że zarówno lasso, jak i elastyczna siatka mogą mieć błąd przewidywania l2 ograniczony tą samą wielkością. Niekoniecznie jest prawdą, że ich granica jest ścisła, ale może to być interesujące zauważyć, ponieważ nierówności w wyroczniach wydają się być standardowym sposobem w literaturze statystycznej do kwantyfikacji wydajności predykcyjnej estymatorów - być może, ponieważ rozkłady są tak skomplikowane! Warto również zauważyć, że Lederer (1) (2) ma kilka artykułów na temat prognoz lasso w obecności skorelowanych cech.

streszczenie

Podsumowując, problemami interesującymi są prawdziwe wsparcie mieszczące się w szacunkowym wsparciu i prognozie. Aby odzyskać wsparcie, istnieją ściśle potwierdzone gwarancje (przez Wainwrighta), że lasso wybiera prawidłowe cechy, które mają być w modelu, przy założeniu niskiej korelacji między prawdziwym wsparciem a jego uzupełnieniem. Jednak w obecności korelacji możemy wrócić do elastycznej siatki, aby zwiększyć prawdopodobieństwo wyboru funkcji w prawdziwym wsparciu, które znajdują się wśród wszystkich wybranych przez siebie elementów. (Zauważ, że musimy tutaj starannie wybrać parametry strojenia.) I, dla przewidywania, kiedy wybieramy parametr strojenia poprzez krzyżową walidację, intuicyjne wydaje się, że elastyczna siatka powinna działać lepiej niż lasso - szczególnie w obecności korelacji .

Odkładając na bok przewidywania i pewne formalności, czego się nauczyliśmy? Dowiedzieliśmy się o prawdziwym wsparciu.

Przedziały ufności

Warto zauważyć, że wiele zmieniło się w ciągu ostatnich 2 lat w odniesieniu do prawidłowego wnioskowania o lasso. W szczególności praca Lee, Sun, Sun i Taylor zapewnia dokładne wnioskowanie o współczynnikach lasso zależnych od wybranego modelu. (Wyniki wnioskowania w lasso dla prawdziwych współczynników były w okolicy postu OP i są dobrze podsumowane w powiązanym dokumencie.)

użytkownik795305
źródło
Czy słusznie byłoby założyć, że szacunkowe zmienne towarzyszące są prawdopodobnie bardziej podobne do tych, które moglibyśmy powtórzyć w badaniu? Czyli skoro regularyzacja pomaga zminimalizować błąd prognozowania poza próbą, może pomóc w zmniejszeniu różnicy między oszacowaniem w próbie i poza próbą?
Bakaburg,
1
@ Bakaburg, tak, to ma sens powiedzieć. Regularyzacja tworzy estymatory o mniejszej wariancji.
user795305
9

To, co robisz z elastycznym, kalenicowym lub lasso, używając weryfikacji krzyżowej do wyboru parametrów regularyzacji, dopasowuje jakąś liniową formę do optymalizacji przewidywania . Dlaczego te szczególne parametry regularyzacji? Ponieważ najlepiej sprawdzają się w prognozowaniu nowych danych. Zmniejszenie szacunków współczynnika do zera, wprowadzając uprzedzenie (jak ma to miejsce w Ridge lub Lasso) może zmniejszyć przeregulowanie i zmniejszyć wariancję . Chodzi o to, aby parametry kary znalazły właściwą równowagę, aby zoptymalizować przewidywanie nowych danych.

Wyobraź sobie, że proces generowania danych to:

yja=fa(xja,β)+ϵja

Niech będzie naszym oszacowaniem parametrów i niech będzie naszą prognozą do obserwacji beta r jjβ^βy^jotjot

Jak powinieneś przedstawić swoje wyniki? To zależy od tego, jakie jest twoje podstawowe pytanie badawcze! Możesz cofnąć się i głęboko zastanowić co pytanie próbujemy odpowiedzieć. Na czym zależy Twoim odbiorcom? Co próbujesz zrobić?

  • Prognoza?
  • Oszacować współczynniki?
  • Zmienny wybór?

Ważne jest, aby rozróżnić dwa typy pytań badawczych:

  1. Pytania, w których przeważnie zależy Ci na przewidywaniu, czyli nay^jot
  2. Pytania, na których najbardziej zależy Ci na oszacowaniach parametrów .β^

Wyłączanie urządzenia przydatności technik uczenia się może być bardzo silny dla byłego, problemów predykcji. Jak się wydaje, jednak standardowe techniki uczenia maszynowego z półki mogą być bardzo problematyczne dla , problemów z oszacowaniem parametrów:y^β^

  • W ustawieniach wysokowymiarowych wiele różnych parametryzacji daje te same prognozy . Jeśli liczba parametrów jest wysoka w stosunku do liczby obserwacji , możesz nie być w stanie dobrze oszacować żadnego pojedynczego parametru.y^kn
  • Algorytmy trenowane przy różnych fałdach mogą mieć znacząco różne oszacowania parametrów.
  • Nacisk w uczeniu maszynowym kładzie się na przewidywanie, a nie konsekwentne szacowanie przyczynowych skutków. (Kontrastuje to z ekonometrią, gdzie zazwyczaj głównym problemem jest konsekwentne szacowanie efektów przyczynowych). Prognozowanie, szacowanie jakiejś formy funkcjonalnej, różni się od szacowania związku przyczynowego. Poziomy policji mogą być dobrym predyktorem poziomów przestępczości, a to nie znaczy, że policja powoduje przestępstwa.

Jak zauważasz, mogą występować problemy z interpretacją, dlaczego działa parametryzacja uczenia maszynowego. Czy Twoi widzowie czują się dobrze z czarną skrzynką z przewidywaniami? A może to, jak przewidywanie działa, ma zasadnicze znaczenie dla twojego pytania?

Lasso i Ridge: klasyczne powody, aby z nich korzystać

  • Możesz użyć elastycznej siatki do klasycznego uczenia maszynowego, problemów z prognozowaniem, sytuacji, w których twoim głównym problemem jest . W pewnym sensie regularyzacja pozwala uwzględnić więcej predyktorów, ale nadal kontrolować nadmierne dopasowanie.y^

  • Możesz użyć regularyzacji, aby zapobiec nadmiernemu dopasowaniu. Na przykład. regresja grzbietu w kontekście dopasowania krzywej wielomianowej może działać całkiem nieźle.

  • Jak podkreśla @Benjamin w swojej odpowiedzi, Lasso może być również używane do wyboru zmiennych. W pewnych warunkach prawidłowości Lasso konsekwentnie wybiera odpowiedni model: nieistotne współczynniki zostaną ustawione na zero.

W i kary, z Lasso i Ridge odpowiednio bias współczynnik szacuje kierunku zera. Jeśli odchylenie jest duże, może to być poważny problem, jeśli próbujesz interpretować oszacowania współczynników. Aby uzyskać standardowe oszacowania błędów, musisz zrobić coś takiego jak ładowanie; nie ma prostych rozwiązań w formie zamkniętej (o których wiem). Grzbiet, lasso i elastyczna siatka mają podobieństwa do zwykłej regresji OLS, ale regularyzacja i wybór zmiennych sprawiają, że wnioskowanie jest zupełnie inne ...L.1L.2)

Wracam do tego, że dość trudno jest zinterpretować wyniki prowadzenia regresji grzbietu, lasso lub elastycznej siatki bez dodatkowego kontekstu tego, co próbujesz rozgryźć!


Prof. Sendhil Mullainathan wygłosił przemówienie na temat uczenia maszynowego na spotkaniu AFA w styczniu 2017 r., Które motywowało część tego postu.

Matthew Gunn
źródło
3
Tego rodzaju myślenie jest błędne moim zdaniem. Opiera się na założeniu, że podstawowe zjawisko jest na tyle proste, że człowiek może je pojąć. Modele wielowymiarowe są w większości przypadków zbyt skomplikowane, aby mogły je zrozumieć ludzie, ale są one bardzo odpowiednie dla sztucznej inteligencji na dużą skalę. W rzeczywistości najlepszym predyktorem jest najlepsza interpretacja tego zjawiska, bez względu na to, czy można go zrozumieć, czy nie.
Cagdas Ozgenc
2
@CagdasOzgenc Myślę, że to słuszna uwaga, że ​​niektóre funkcje są strasznie złożone, trudne do opisania dla ludzi, ale zrozumiałe i możliwe do nauczenia przez maszyny (np. Ocena szachownicy). W takich sytuacjach może być lepiej podnieść ręce, a nawet nie próbować interpretować tego, czego nauczyła się maszyna. Z drugiej strony są sytuacje takie jak próby narkotykowe, w których występuje efekt przyczynowy, pewna średnia skuteczność, którą próbujesz oszacować w obecności wielu czynników zakłócających, efektów selekcji itp. Są to w pewnym sensie różne problemy i potrzeby różne techniki.
Matthew Gunn
1
y^