Bayesowski kolec i płyta kontra metody karane

11

Czytam slajdy Stevena Scotta o pakiecie BSTS R. (Znajdziesz je tutaj: slajdy ).

W pewnym momencie, mówiąc o włączeniu wielu regresorów do strukturalnego modelu szeregów czasowych, wprowadza on priory wartości szczytowej współczynnika regresji i mówi, że są one lepsze w porównaniu z metodami karanymi.

Scott mówi, odwołując się do przykładu zestawu danych zawierającego 100 predyktorów:

  • Metody karane podejmują jedną decyzję, które zmienne są uwzględniane / wykluczane, co oznacza, że ​​decydują o jednym podzbiorze predyktorów, tj. Jednym modelu spośród możliwych.2100
  • „Priory Lasso (i pokrewne) nie są rzadkie, wywołują rzadkość w trybie, ale nie w dystrybucji tylnej”

W tym momencie przedstawia on priory Spike i Slab.

Myślę, że mam intuicję, ale chcę być tego pewien:

  • Czy są lepsze w tym sensie, że w zasadzie używają podejścia z użyciem siły brutalnej, testując każdy możliwy podzbiór regresorów, które mają być uwzględnione?
  • Czy wadą jest przy tym czas obliczeń?
  • Jak myślisz, co miał na myśli mówiąc „Lasso (i spokrewniony)… ale nie w dystrybucji tylnej”?
Tommaso Guerrini
źródło

Odpowiedzi:

10

Najpierw odpowiem na twoje trzecie pytanie, a pozostałe dwa później.

  1. Jak myślisz, co miał na myśli mówiąc „Lasso (i spokrewniony)… ale nie w dystrybucji tylnej”?

Ta liczba z jego slajdów pokazuje, co miał na myśli. Wyrażenie regulatora lasso jako wcześniejszej dystrybucji oznacza, że ​​twoja wcześniejsza dystrybucja przybierze formę dystrybucji Laplaciana lub podwójnej wykładniczej . Ten rozkład ma charakterystyczny nieładny pik przy średniej, która jest ustawiona na 0, aby osiągnąć rzadki efekt regularyzacji. Aby bezpośrednio uzyskać wynik regulowany metodą lasso, należy wybrać tryb dystrybucji tylnej.

test

Na rysunku niebieska linia przerywana przedstawia wcześniejsze rozmieszczenie Laplaciana. Rozkład boczny, w jednolitej czerni, ma swój tryb na 0 po lewej ze słabym prawdopodobieństwem, podczas gdy tryb jest niezerowy po prawej z dużym prawdopodobieństwem.

Jednak pełny rozkład tylny nie jest rzadki, ponieważ jeśli z niego spróbujesz, rzadko otrzymujesz jakąś wartość zbliżoną do 0, a ponieważ jest to ciągły rozkład, nigdy nie uzyskasz dokładnie 0.

Aby osiągnąć rzadkość dzięki podejściu lasso, zazwyczaj musisz ustawić próg odcięcia w trybie tylnym. Idealny przypadek ma miejsce, gdy twój tryb tylny jest równy 0, ale możesz to rozluźnić i wyeliminować zmienną, jeśli jego tryb tylny jest mniejszy niż 0,2 po przyjęciu wartości bezwzględnej.

Wykonanie tego sparifikacji pod lasso daje szczególny zestaw wyeliminowanych i zachowanych regresorów, który jest „pojedynczą decyzją” o tym, które regresory są uwzględnione lub wykluczone.

W pełni bayesowskie podejście do wyboru zmiennych, poprzedzające szczyt i płytę, zachowuje niepewność co do tego, które zmienne należy uwzględnić lub wykluczyć przez cały model.

Aby odpowiedzieć na twoje pierwsze pytanie:

  1. Czy są lepsze w tym sensie, że w zasadzie używają podejścia z użyciem siły brutalnej, testując każdy możliwy podzbiór regresorów, które mają być uwzględnione?

Jest to nieporozumienie, ponieważ żadna z metod nie sprawdza wszystkich możliwych podzbiorów regresorów, które należy uwzględnić.

  1. Czy wadą jest przy tym czas obliczeń?

Jest to również nieporozumienie, ponieważ czas obliczeń nie jest zdominowany przez brutalną siłę testującą każdy możliwy podzbiór regresorów.

Aby wyjaśnić punkt Scotta, biorąc pod uwagę pewne dane, jeśli zastosujesz podejście polegające na sparyfikacji prawdopodobieństwa za karą, otrzymasz dokładnie jeden zestaw uwzględnionych i wykluczonych regresorów. Ale jeśli zastosujesz metodę sparsifikacji szczytów i płyt, masz pełny rozkład boczny dla każdego regresora, z każdym z osobnym prawdopodobieństwem włączenia lub wyłączenia. Niektóre regresory mogą mieć 70% szans na włączenie, inne 25%. Może to być preferowane w wielu aplikacjach, ponieważ biorąc pod uwagę pojedynczy zestaw danych, nadal powinniśmy mieć niepewność, które regresory są ważne, czy nie.

Intuicyjnie, wcześniejszy skok i płyta lepiej reprezentuje możliwą przestrzeń włączonych / wyłączonych regresorów w porównaniu do podejścia z karą prawdopodobieństwa, takiego jak lasso.

esteta
źródło
2
Dziękuję Ci bardzo! Moje zrozumienie slajdów Scotta było tak powierzchowne i częściowo niezgodne z rzeczywistością, że wyjaśniłeś to!
Tommaso Guerrini