Naprawdę interesuje mnie procedura elastycznej siatki dla skurczenia / wyboru predyktora. Wydaje się bardzo potężny.
Ale z naukowego punktu widzenia nie wiem dobrze, co zrobić, gdy otrzymam współczynniki. Na jakie pytanie odpowiadam? Czy są to zmienne, które najbardziej wpływają na ten wynik i czy są to współczynniki, które dają najlepszy stosunek wariancji / odchylenia podczas walidacji?
Jest to oczywiście podejście bardzo opisowe / predykcyjne w porównaniu z klasycznym podejściem wartości p / przedziałów ufności. Wnioskowanie szacunkowe jest obecnie badane przez Tibshirani & Co., ale wciąż jest eksperymentalne.
Niektóre osoby używają zmiennych wybranych przez siatkę elastyczną do przeprowadzania klasycznej analizy wnioskowania, ale wyeliminowałoby to ograniczenie wariancji wynikające z tej techniki.
Innym problemem jest to, że ponieważ parametry lambda i alfa dla elastycznej siatki są wybierane przez krzyżową walidację, podlegają one losowej zmienności. Za każdym razem, gdy uruchamiasz (np.) Cv.glmnet (), wybierasz nieco inny podzbiór predyktorów o zawsze różnych współczynnikach.
Zastanawiałem się nad rozwiązaniem tego, biorąc pod uwagę właściwą lambda i alfa jako zmienne losowe i ponownie uruchom n-krok krok weryfikacji krzyżowej, aby uzyskać rozkład tych parametrów. W ten sposób dla każdego predyktora miałbym liczbę wystąpień, a dla każdego współczynnika miałbym rozkład wyników. To powinno dać mi bardziej ogólne wyniki ze statystykami zakresów (jak sd współczynników). Ciekawe byłoby również, czy lambda i alfa wybrały w ten sposób asymptotycznie przybliżenie do jakiegoś rozkładu, ponieważ otworzyłoby to drogę do testu wnioskowania (ale nie jestem statystykiem, więc nie powinienem mówić o rzeczach, które nie w pełni rozumiem).
Wreszcie moje pytanie brzmi: kiedy uzyskasz predyktory i współczynniki z elastycznej sieci z alfa i lambda na podstawie weryfikacji krzyżowej, które i jak należy przedstawić te wyniki? Jak je omówić? czego się nauczyliśmy? Jaką hipotezę / uogólnienie jesteśmy w błędzie?
Odpowiedzi:
Metody te - lasso i elastyczna siatka - zrodziły się z problemów zarówno wyboru cech, jak i prognozowania. Sądzę, że dzięki tym dwóm soczewkom można znaleźć wyjaśnienie.
Matthew Gunn ładnie wyjaśnia w swojej odpowiedzi, że te dwa cele są różne i często podejmowane przez różnych ludzi. Jednak na szczęście dla nas metody, którymi jesteśmy zainteresowani, mogą działać dobrze na obu arenach.
Wybór funkcji
Najpierw porozmawiajmy o wyborze funkcji. Najpierw powinniśmy zmotywować elastyczną siatkę z perspektywy lasso. To znaczy, cytując Hastie i Zou , „Jeśli istnieje grupa zmiennych, wśród których korelacje par są bardzo wysokie, wówczas lasso ma tendencję do wybierania tylko jednej zmiennej z grupy i nie ma znaczenia, która z nich jest wybrana”. Jest to na przykład problem, ponieważ oznacza, że prawdopodobnie nie znajdziemy elementu prawdziwego wsparcia za pomocą lasso - tylko jednego wysoce z nim skorelowanego. (Artykuł wspomina, że jest to udowodnione w artykule LARS, którego jeszcze nie przeczytałem). Trudność odzyskania wsparcia w obecności korelacji jest również wskazana przez Wainwrighta ,0,5 gdy istnieje wysoka korelacja między prawdziwym wsparciem a jego uzupełnieniem.
Teraz kara 12 w siatce elastycznej zachęca cechy, których współczynniki są traktowane jako nierozróżnialne przez samą stratę i kara 11 do równego oszacowanego współczynnika. Możemy to swobodnie dostrzec, zauważając, że spełnia. Z tego powodu elastyczna siatka sprawia, że jesteśmy mniej skłonni do „przypadkowego” uczynienia zniknięcia współczynnikiem szacunkowym, który jest prawdziwym wsparciem. Oznacza to, że prawdziwe wsparcie jest bardziej prawdopodobne w ramach szacowanego wsparcia. Dobre! To oznacza, że jest więcej fałszywych odkryć, ale jest to cena, którą większość ludzi jest skłonna zapłacić.| a | = | b |( a , b ) = argminza′, b′: c = | za′| + | b′|( a′)2)+ ( b′)2) | a | = | b |
Nawiasem mówiąc, warto zauważyć, że fakt, iż wysoce skorelowane cechy będą miały bardzo podobne oszacowania współczynników, sprawia, że możemy wykrywać grupy cech w ramach szacowanego wsparcia, które wpływają podobnie na odpowiedź.
Prognoza
Teraz przechodzimy do przewidywania. Jak zauważa Matthew Gunn, wybór parametrów dostrajania poprzez krzyżową weryfikację stwarza cel wyboru modelu z minimalnym błędem prognozowania. Ponieważ dowolny model wybrany przez lasso można wybrać za pomocą elastycznej siatki (przyjmując ), sensowne jest, że elastyczna siatka jest w stanie znaleźć model, który przewiduje lepiej niż lasso.α = 1
Lederer, Yu i Gaynanova pokazują, bez żadnych założeń dotyczących cech, że zarówno lasso, jak i elastyczna siatka mogą mieć błąd przewidywania l2 ograniczony tą samą wielkością. Niekoniecznie jest prawdą, że ich granica jest ścisła, ale może to być interesujące zauważyć, ponieważ nierówności w wyroczniach wydają się być standardowym sposobem w literaturze statystycznej do kwantyfikacji wydajności predykcyjnej estymatorów - być może, ponieważ rozkłady są tak skomplikowane! Warto również zauważyć, że Lederer (1) (2) ma kilka artykułów na temat prognoz lasso w obecności skorelowanych cech.
streszczenie
Podsumowując, problemami interesującymi są prawdziwe wsparcie mieszczące się w szacunkowym wsparciu i prognozie. Aby odzyskać wsparcie, istnieją ściśle potwierdzone gwarancje (przez Wainwrighta), że lasso wybiera prawidłowe cechy, które mają być w modelu, przy założeniu niskiej korelacji między prawdziwym wsparciem a jego uzupełnieniem. Jednak w obecności korelacji możemy wrócić do elastycznej siatki, aby zwiększyć prawdopodobieństwo wyboru funkcji w prawdziwym wsparciu, które znajdują się wśród wszystkich wybranych przez siebie elementów. (Zauważ, że musimy tutaj starannie wybrać parametry strojenia.) I, dla przewidywania, kiedy wybieramy parametr strojenia poprzez krzyżową walidację, intuicyjne wydaje się, że elastyczna siatka powinna działać lepiej niż lasso - szczególnie w obecności korelacji .
Odkładając na bok przewidywania i pewne formalności, czego się nauczyliśmy? Dowiedzieliśmy się o prawdziwym wsparciu.
Przedziały ufności
Warto zauważyć, że wiele zmieniło się w ciągu ostatnich 2 lat w odniesieniu do prawidłowego wnioskowania o lasso. W szczególności praca Lee, Sun, Sun i Taylor zapewnia dokładne wnioskowanie o współczynnikach lasso zależnych od wybranego modelu. (Wyniki wnioskowania w lasso dla prawdziwych współczynników były w okolicy postu OP i są dobrze podsumowane w powiązanym dokumencie.)
źródło
To, co robisz z elastycznym, kalenicowym lub lasso, używając weryfikacji krzyżowej do wyboru parametrów regularyzacji, dopasowuje jakąś liniową formę do optymalizacji przewidywania . Dlaczego te szczególne parametry regularyzacji? Ponieważ najlepiej sprawdzają się w prognozowaniu nowych danych. Zmniejszenie szacunków współczynnika do zera, wprowadzając uprzedzenie (jak ma to miejsce w Ridge lub Lasso) może zmniejszyć przeregulowanie i zmniejszyć wariancję . Chodzi o to, aby parametry kary znalazły właściwą równowagę, aby zoptymalizować przewidywanie nowych danych.
Wyobraź sobie, że proces generowania danych to:
Niech będzie naszym oszacowaniem parametrów i niech będzie naszą prognozą do obserwacji beta r jjβ^ β y^jot jot
Jak powinieneś przedstawić swoje wyniki? To zależy od tego, jakie jest twoje podstawowe pytanie badawcze! Możesz cofnąć się i głęboko zastanowić co pytanie próbujemy odpowiedzieć. Na czym zależy Twoim odbiorcom? Co próbujesz zrobić?
Ważne jest, aby rozróżnić dwa typy pytań badawczych:
Wyłączanie urządzenia przydatności technik uczenia się może być bardzo silny dla byłego, problemów predykcji. Jak się wydaje, jednak standardowe techniki uczenia maszynowego z półki mogą być bardzo problematyczne dla , problemów z oszacowaniem parametrów:y^ β^
Jak zauważasz, mogą występować problemy z interpretacją, dlaczego działa parametryzacja uczenia maszynowego. Czy Twoi widzowie czują się dobrze z czarną skrzynką z przewidywaniami? A może to, jak przewidywanie działa, ma zasadnicze znaczenie dla twojego pytania?
Lasso i Ridge: klasyczne powody, aby z nich korzystać
Możesz użyć elastycznej siatki do klasycznego uczenia maszynowego, problemów z prognozowaniem, sytuacji, w których twoim głównym problemem jest . W pewnym sensie regularyzacja pozwala uwzględnić więcej predyktorów, ale nadal kontrolować nadmierne dopasowanie.y^
Możesz użyć regularyzacji, aby zapobiec nadmiernemu dopasowaniu. Na przykład. regresja grzbietu w kontekście dopasowania krzywej wielomianowej może działać całkiem nieźle.
Jak podkreśla @Benjamin w swojej odpowiedzi, Lasso może być również używane do wyboru zmiennych. W pewnych warunkach prawidłowości Lasso konsekwentnie wybiera odpowiedni model: nieistotne współczynniki zostaną ustawione na zero.
W i kary, z Lasso i Ridge odpowiednio bias współczynnik szacuje kierunku zera. Jeśli odchylenie jest duże, może to być poważny problem, jeśli próbujesz interpretować oszacowania współczynników. Aby uzyskać standardowe oszacowania błędów, musisz zrobić coś takiego jak ładowanie; nie ma prostych rozwiązań w formie zamkniętej (o których wiem). Grzbiet, lasso i elastyczna siatka mają podobieństwa do zwykłej regresji OLS, ale regularyzacja i wybór zmiennych sprawiają, że wnioskowanie jest zupełnie inne ...L.1 L.2)
Wracam do tego, że dość trudno jest zinterpretować wyniki prowadzenia regresji grzbietu, lasso lub elastycznej siatki bez dodatkowego kontekstu tego, co próbujesz rozgryźć!
Prof. Sendhil Mullainathan wygłosił przemówienie na temat uczenia maszynowego na spotkaniu AFA w styczniu 2017 r., Które motywowało część tego postu.
źródło