Jaki problem rozwiązują metody skurczu?

61

Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same oszacowania parametrów i osiągnięcie bezstronności lub przynajmniej spójności. Metody skurczowe tego nie robią.

Wydaje mi się, że metody te są stosowane, gdy statystyk obawia się, że funkcja regresji stanie się zbyt wrażliwa na predyktory, że uważa predyktory za ważniejsze (mierzone wielkością współczynników) niż w rzeczywistości. Innymi słowy, nadmierne dopasowanie.

Ale OLS zazwyczaj zapewnia obiektywne i spójne szacunki. (Przypis) Zawsze widziałem problem nadmiernego dopasowania, polegający na nie podawaniu zbyt dużych szacunków, ale raczej zbyt małych przedziałów ufności, ponieważ proces selekcji nie jest brany pod uwagę ( ESL wspomina o tym ostatnim punkcie).

Bezstronne / spójne szacunki współczynników prowadzą do obiektywnych / spójnych prognoz wyniku. Metody skurczu przybliżają prognozy do średniego wyniku niż OLS, pozornie pozostawiając informacje na stole.

Powtarzając, nie widzę problemu, jaki metody skurczowe próbują rozwiązać. Czy coś brakuje?

Przypis: Potrzebujemy pełnego warunku rangi kolumny do identyfikacji współczynników. Założenie o egzogeniczności / zerowej średniej warunkowej dla błędów i liniowe założenie o warunkowym oczekiwaniu determinują interpretację, którą możemy podać współczynnikom, ale otrzymujemy obiektywne lub spójne oszacowanie czegoś, nawet jeśli te założenia nie są prawdziwe.

Charlie
źródło
1
Tutaj jest kilka powiązanych pytań. To jest jeden: stats.stackexchange.com/questions/10478/…
kardynał
2
Należy zauważyć, że istnieją proste i dość słabe warunki dotyczące wyboru parametru skurczu w celu osiągnięcia spójności parametru. Jest to szczegółowo opisane w słynnym artykule Knight & Fu (2000) i obejmuje przypadki znacznie wykraczające poza regresję grzbietu i lasso. Spójność wyboru modeli stała się również popularnym tematem w ciągu ostatnich kilku lat.
kardynał
@ cardinal, dzięki za wskaźniki do modelowania wyników spójności dla lasso; Zobaczę. Oczywiście wyniki te można również znaleźć w OLS. Wyniki sugerują, że obie procedury docierają w to samo miejsce. Więc nadal nie rozumiem, dlaczego używamy lasso zamiast OLS.
Charlie,
1
Spójność modelu jest inną koncepcją niż asymptotyczna spójność oszacowań parametrów. Czy zdajesz sobie sprawę z tej różnicy?
kardynał
@ cardinal, Według spójności modelu, myślę, że masz na myśli, że uwzględniono prawidłowe predyktory. Możemy to uzyskać, stosując kryterium AIC w procesie selekcji za pomocą OLS. Myślę, że sugerujesz, że w limicie lasso wybiera odpowiedni model z „złymi” współczynnikami?
Charlie,

Odpowiedzi:

47

Podejrzewam, że chcesz głębszej odpowiedzi i będę musiał pozwolić, aby ktoś inny ją dostarczył, ale mogę dać ci kilka przemyśleń na temat regresji grzbietu z luźnej, konceptualnej perspektywy.

Regresja OLS daje oszacowania parametrów, które są obiektywne (tj. Jeśli takie próbki zostaną zebrane, a parametry oszacowane na czas nieokreślony, rozkład próbkowania oszacowań parametrów zostanie wyśrodkowany na wartości rzeczywistej). Co więcej, rozkład próbkowania będzie miał najniższą wariancję spośród wszystkich możliwych obiektywnych oszacowań (oznacza to, że średnio oszacowanie parametru OLS będzie bliższe wartości rzeczywistej niż oszacowanie z innej procedury obiektywnego oszacowania). To stare wiadomości (przepraszam, wiem, że dobrze o tym wiesz), jednak fakt, że wariancja jest niższa , nie oznacza, że ​​jest strasznie niska. W niektórych okolicznościach wariancja rozkładu próbkowania może być tak duża, że ​​estymator OLS jest zasadniczo bezwartościowy. (Jedną z sytuacji, w której może się to zdarzyć, jest wysoki stopień wielokoliniowości).

Co zrobić w takiej sytuacji? Cóż, można znaleźć inny estymator, który ma mniejszą wariancję (chociaż, oczywiście, musi być stronniczy, biorąc pod uwagę to, co zostało określone powyżej). Oznacza to, że godzimy się na bezstronność za niższą wariancję. Na przykład otrzymujemy oszacowania parametrów, które prawdopodobnie będą znacznie bliższe rzeczywistej wartości, choć prawdopodobnie nieco poniżej prawdziwej wartości. To, czy warto skorzystać z tego kompromisu, należy do osądu, jaki musi podjąć analityk w obliczu takiej sytuacji. W każdym razie regresja kalenicy jest właśnie taką techniką. Poniższa (całkowicie sfabrykowana) figura ma na celu zilustrowanie tych pomysłów.

wprowadź opis zdjęcia tutaj

To zapewnia krótki, prosty, koncepcyjne wprowadzenie do regresji kalenicy. Wiem mniej o lasso i LAR, ale wierzę, że można zastosować te same pomysły. Więcej informacji o lasso i regresji najmniejszego kąta można znaleźć tutaj , link „proste wyjaśnienie ...” jest szczególnie pomocny. To zapewnia znacznie więcej informacji na temat metod skurczowych.

Mam nadzieję, że to ma jakąś wartość.

gung - Przywróć Monikę
źródło
12
Daje to kilka fajnych wskazówek pojęciowych. W drugim akapicie duży nacisk kładziony jest na bezstronność, ale brakuje ważnego zastrzeżenia. O ile (a) model liniowy nie jest „poprawny” (a kiedy to jest?) I (b) wszystkie istotne predyktory są uwzględnione w modelu, szacunki współczynników będą nadal tendencyjne.
kardynał
5
Moje ograniczone zrozumienie kompromisu odchylenia / wariancji polega na tym, że ktoś, kto szuka wyjaśnienia (jak być może oryginalny plakat) wolałby obiektywizm, nawet gdyby wariancja była większa, ale ktoś sporządzający prognozę może preferować coś z niewielką wariancją, nawet jeśli stronniczość jest wprowadzony.
Wayne
2
@Wayne: Rzeczywiście, jest to jeden z głównych sedna sprawy. Znaczna część punktu widzenia w języku ESL pochodzi z perspektywy prognozowania, a to barwi dużą część ich analizy. Przeprowadzanie wnioskowania na podstawie jednego współczynnika, szczególnie w warunkach obserwacyjnych, jest bardzo śliskie. Przekonanie, że szacunki współczynników były naprawdę „obiektywne”, wymagałoby poważnego przekonania.
kardynał
1
Po pewnym czasie mogę spróbować rozwinąć już i tak obszerne komentarze nieco później.
kardynał
@gung, oto pokrewny wątek Meta, który może Cię zainteresować.
Richard Hardy
16

Błąd estymatora jest kombinacją (kwadratowych) elementów odchylenia i wariancji . Jednak w praktyce chcemy dopasować model do konkretnej skończonej próbki danych i chcemy zminimalizować całkowity błąd estymatora oszacowanego na konkretnej próbce danych, którą faktycznie mamy , zamiast błędu zerowego średnio dla pewnej populacji próbek (których nie mamy). Dlatego chcemy zmniejszyć zarówno odchylenie, jak i wariancję, aby zminimalizować błąd, co często oznacza poświęcenie bezstronności w celu większego zmniejszenia komponentu wariancji. Jest to szczególnie prawdziwe w przypadku małych zestawów danych, w których wariancja może być wysoka.

Myślę, że różnica w skupieniu zależy od tego, czy interesują nas właściwości procedury, czy też uzyskanie najlepszych wyników na konkretnej próbce. Częstym użytkownikom zazwyczaj jest łatwiej z tymi pierwszymi poradzić sobie w tych ramach; Bayesianie są często bardziej skoncentrowani na tym ostatnim.

Dikran Torbacz
źródło
9

Myślę, że istnieje kilka odpowiedzi, które mogą mieć zastosowanie:

  • Regresja grzbietu może zapewnić identyfikację, gdy matryca predyktorów nie jest pełna ranga kolumny.
  • Lasso i LAR mogą być używane, gdy liczba predyktorów jest większa niż liczba obserwacji (inny wariant problemu niepodzielnego).
  • Lasso i LAR są algorytmami automatycznego wyboru zmiennych.

Nie jestem pewien, czy pierwszy punkt dotyczący regresji grzbietu jest naprawdę cechą; Myślę, że wolałbym zmienić swój model, aby zająć się brakiem identyfikacji. Nawet bez zmiany modelowania OLS zapewnia unikalne (i obiektywne / spójne) prognozy wyniku w tym przypadku.

Widziałem, w jaki sposób drugi punkt może być pomocny, ale wybór do przodu może również działać w przypadku, gdy liczba parametrów przekracza liczbę obserwacji, przy jednoczesnym uzyskaniu obiektywnych / spójnych szacunków.

W ostatnim punkcie, wybór do przodu / do tyłu, jako przykłady, można łatwo zautomatyzować.

Więc nadal nie widzę prawdziwych zalet.

Charlie
źródło
6
Kilka uwag: ( 1 ) Oszacowania OLS nie są unikalne, gdy macierz predyktorów nie jest pełna. ( 2 ) Spójność jest pojęciem asymptotycznym i dlatego wymaga sekwencji estymatorów. Oznacza to, że musisz zdefiniować typ sekwencji, którą rozważasz, a rodzaj wzrostu, który Cię interesuje, ma znaczenie. ( 3 ) Istnieje wiele rodzajów spójności, a zrozumienie różnic między nimi może być ilustrujące. Dokument Zhao i Yu (2006) ma miłą dyskusję. ( 4 ) Bezstronność jest przereklamowana.
kardynał
1
( 5 ) Oryginalną motywacją regresji grzbietu w Hoerl i Kennard (1970) było radzenie sobie ze źle uwarunkowanymi matrycami projektowymi, które są „miękką” formą niedoboru rang.
kardynał
1
@cardinal, re. (1): Przepraszam, miałem na myśli przewidywania wyniku, a nie szacunki współczynników.
Charlie,
1
Ach, okej To lepiej pasuje do twojego przypisu w pytaniu.
kardynał
Oto link do publicznie dostępnej wersji Zhao i Yu (2006), jak w powyższym komentarzu.
Richard Hardy
4

Oto podstawowy przykład zastosowania z Biostatistics

Załóżmy, że badam możliwe związki między obecnością raka jajnika a zestawem genów.

Moja zmienna zależna jest binarna (kodowana jako zero lub 1). Moje zmienne niezależne kodują dane z proteomicznej bazy danych.

Jak to często bywa w wielu badaniach genetyki, moje dane są znacznie szersze niż wysokie. Mam 216 różnych obserwacji, ale około 4000 możliwych predyktorów.

Regresja liniowa jest od razu (system jest okropny ponad ustalony).

techniki wyboru funkcji naprawdę nie są możliwe. Przy ponad 4000 różnych zmiennych niezależnych wszystkie możliwe techniki podzbiorów są całkowicie wykluczone, a nawet sekwencyjny wybór funkcji jest wątpliwy.

Najlepszą opcją jest prawdopodobnie regresja logistyczna z elastyczną siatką.

Chcę dokonać wyboru funkcji (określić, które zmienne niezależne są ważne), więc regresja grzbietu naprawdę nie jest odpowiednia.

Jest całkiem możliwe, że istnieje ponad 216 zmiennych niezależnych, które mają znaczący wpływ, więc prawdopodobnie nie powinienem używać lasso (Lasso nie może zidentyfikować więcej predyktorów niż twoje obserwacje) ...

Wprowadź elastyczną siatkę ...

Richard Willey
źródło
1
czy mógłbyś podać podręcznik, który dotyczy wspomnianych przez ciebie sytuacji?
Qbik
0

Innym problemem, którym mogą się zająć metody regresji liniowej, jest uzyskanie niskiej wariancji (być może obiektywnej) oceny średniego efektu leczenia (ATE) w wielowymiarowych badaniach kontrolnych przypadków na danych obserwacyjnych.

W szczególności w przypadkach, gdy 1) istnieje duża liczba zmiennych (co utrudnia wybranie zmiennych do dokładnego dopasowania), 2) dopasowanie wyniku skłonności nie eliminuje nierównowagi w próbkach kontrolnych i kontrolnych oraz 3) występuje wielokoliniowość istnieje kilka technik, takich jak adaptacyjne lasso (Zou, 2006), które uzyskują asymptotycznie obiektywne oceny. W kilku pracach dyskutowano o zastosowaniu regresji Lasso do wnioskowania przyczynowego i generowaniu przedziałów ufności na podstawie oszacowań współczynników (patrz następujący post: Wnioskowanie po zastosowaniu Lasso do wyboru zmiennych ).

RobertF
źródło