Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same oszacowania parametrów i osiągnięcie bezstronności lub przynajmniej spójności. Metody skurczowe tego nie robią.
Wydaje mi się, że metody te są stosowane, gdy statystyk obawia się, że funkcja regresji stanie się zbyt wrażliwa na predyktory, że uważa predyktory za ważniejsze (mierzone wielkością współczynników) niż w rzeczywistości. Innymi słowy, nadmierne dopasowanie.
Ale OLS zazwyczaj zapewnia obiektywne i spójne szacunki. (Przypis) Zawsze widziałem problem nadmiernego dopasowania, polegający na nie podawaniu zbyt dużych szacunków, ale raczej zbyt małych przedziałów ufności, ponieważ proces selekcji nie jest brany pod uwagę ( ESL wspomina o tym ostatnim punkcie).
Bezstronne / spójne szacunki współczynników prowadzą do obiektywnych / spójnych prognoz wyniku. Metody skurczu przybliżają prognozy do średniego wyniku niż OLS, pozornie pozostawiając informacje na stole.
Powtarzając, nie widzę problemu, jaki metody skurczowe próbują rozwiązać. Czy coś brakuje?
Przypis: Potrzebujemy pełnego warunku rangi kolumny do identyfikacji współczynników. Założenie o egzogeniczności / zerowej średniej warunkowej dla błędów i liniowe założenie o warunkowym oczekiwaniu determinują interpretację, którą możemy podać współczynnikom, ale otrzymujemy obiektywne lub spójne oszacowanie czegoś, nawet jeśli te założenia nie są prawdziwe.
źródło
Odpowiedzi:
Podejrzewam, że chcesz głębszej odpowiedzi i będę musiał pozwolić, aby ktoś inny ją dostarczył, ale mogę dać ci kilka przemyśleń na temat regresji grzbietu z luźnej, konceptualnej perspektywy.
Regresja OLS daje oszacowania parametrów, które są obiektywne (tj. Jeśli takie próbki zostaną zebrane, a parametry oszacowane na czas nieokreślony, rozkład próbkowania oszacowań parametrów zostanie wyśrodkowany na wartości rzeczywistej). Co więcej, rozkład próbkowania będzie miał najniższą wariancję spośród wszystkich możliwych obiektywnych oszacowań (oznacza to, że średnio oszacowanie parametru OLS będzie bliższe wartości rzeczywistej niż oszacowanie z innej procedury obiektywnego oszacowania). To stare wiadomości (przepraszam, wiem, że dobrze o tym wiesz), jednak fakt, że wariancja jest niższa , nie oznacza, że jest strasznie niska. W niektórych okolicznościach wariancja rozkładu próbkowania może być tak duża, że estymator OLS jest zasadniczo bezwartościowy. (Jedną z sytuacji, w której może się to zdarzyć, jest wysoki stopień wielokoliniowości).
Co zrobić w takiej sytuacji? Cóż, można znaleźć inny estymator, który ma mniejszą wariancję (chociaż, oczywiście, musi być stronniczy, biorąc pod uwagę to, co zostało określone powyżej). Oznacza to, że godzimy się na bezstronność za niższą wariancję. Na przykład otrzymujemy oszacowania parametrów, które prawdopodobnie będą znacznie bliższe rzeczywistej wartości, choć prawdopodobnie nieco poniżej prawdziwej wartości. To, czy warto skorzystać z tego kompromisu, należy do osądu, jaki musi podjąć analityk w obliczu takiej sytuacji. W każdym razie regresja kalenicy jest właśnie taką techniką. Poniższa (całkowicie sfabrykowana) figura ma na celu zilustrowanie tych pomysłów.
To zapewnia krótki, prosty, koncepcyjne wprowadzenie do regresji kalenicy. Wiem mniej o lasso i LAR, ale wierzę, że można zastosować te same pomysły. Więcej informacji o lasso i regresji najmniejszego kąta można znaleźć tutaj , link „proste wyjaśnienie ...” jest szczególnie pomocny. To zapewnia znacznie więcej informacji na temat metod skurczowych.
Mam nadzieję, że to ma jakąś wartość.
źródło
Błąd estymatora jest kombinacją (kwadratowych) elementów odchylenia i wariancji . Jednak w praktyce chcemy dopasować model do konkretnej skończonej próbki danych i chcemy zminimalizować całkowity błąd estymatora oszacowanego na konkretnej próbce danych, którą faktycznie mamy , zamiast błędu zerowego średnio dla pewnej populacji próbek (których nie mamy). Dlatego chcemy zmniejszyć zarówno odchylenie, jak i wariancję, aby zminimalizować błąd, co często oznacza poświęcenie bezstronności w celu większego zmniejszenia komponentu wariancji. Jest to szczególnie prawdziwe w przypadku małych zestawów danych, w których wariancja może być wysoka.
Myślę, że różnica w skupieniu zależy od tego, czy interesują nas właściwości procedury, czy też uzyskanie najlepszych wyników na konkretnej próbce. Częstym użytkownikom zazwyczaj jest łatwiej z tymi pierwszymi poradzić sobie w tych ramach; Bayesianie są często bardziej skoncentrowani na tym ostatnim.
źródło
Myślę, że istnieje kilka odpowiedzi, które mogą mieć zastosowanie:
Nie jestem pewien, czy pierwszy punkt dotyczący regresji grzbietu jest naprawdę cechą; Myślę, że wolałbym zmienić swój model, aby zająć się brakiem identyfikacji. Nawet bez zmiany modelowania OLS zapewnia unikalne (i obiektywne / spójne) prognozy wyniku w tym przypadku.
Widziałem, w jaki sposób drugi punkt może być pomocny, ale wybór do przodu może również działać w przypadku, gdy liczba parametrów przekracza liczbę obserwacji, przy jednoczesnym uzyskaniu obiektywnych / spójnych szacunków.
W ostatnim punkcie, wybór do przodu / do tyłu, jako przykłady, można łatwo zautomatyzować.
Więc nadal nie widzę prawdziwych zalet.
źródło
Oto podstawowy przykład zastosowania z Biostatistics
Załóżmy, że badam możliwe związki między obecnością raka jajnika a zestawem genów.
Moja zmienna zależna jest binarna (kodowana jako zero lub 1). Moje zmienne niezależne kodują dane z proteomicznej bazy danych.
Jak to często bywa w wielu badaniach genetyki, moje dane są znacznie szersze niż wysokie. Mam 216 różnych obserwacji, ale około 4000 możliwych predyktorów.
Regresja liniowa jest od razu (system jest okropny ponad ustalony).
techniki wyboru funkcji naprawdę nie są możliwe. Przy ponad 4000 różnych zmiennych niezależnych wszystkie możliwe techniki podzbiorów są całkowicie wykluczone, a nawet sekwencyjny wybór funkcji jest wątpliwy.
Najlepszą opcją jest prawdopodobnie regresja logistyczna z elastyczną siatką.
Chcę dokonać wyboru funkcji (określić, które zmienne niezależne są ważne), więc regresja grzbietu naprawdę nie jest odpowiednia.
Jest całkiem możliwe, że istnieje ponad 216 zmiennych niezależnych, które mają znaczący wpływ, więc prawdopodobnie nie powinienem używać lasso (Lasso nie może zidentyfikować więcej predyktorów niż twoje obserwacje) ...
Wprowadź elastyczną siatkę ...
źródło
Innym problemem, którym mogą się zająć metody regresji liniowej, jest uzyskanie niskiej wariancji (być może obiektywnej) oceny średniego efektu leczenia (ATE) w wielowymiarowych badaniach kontrolnych przypadków na danych obserwacyjnych.
W szczególności w przypadkach, gdy 1) istnieje duża liczba zmiennych (co utrudnia wybranie zmiennych do dokładnego dopasowania), 2) dopasowanie wyniku skłonności nie eliminuje nierównowagi w próbkach kontrolnych i kontrolnych oraz 3) występuje wielokoliniowość istnieje kilka technik, takich jak adaptacyjne lasso (Zou, 2006), które uzyskują asymptotycznie obiektywne oceny. W kilku pracach dyskutowano o zastosowaniu regresji Lasso do wnioskowania przyczynowego i generowaniu przedziałów ufności na podstawie oszacowań współczynników (patrz następujący post: Wnioskowanie po zastosowaniu Lasso do wyboru zmiennych ).
źródło