Karane metody dla danych jakościowych: łączenie poziomów w czynnik

Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy czym poziomy te nie są rozróżnialne pod względem interakcji z innymi czynnikami. Dwa pytania:

Czy istnieje sposób na zastosowanie modeli karanych, takich jak LASSO lub elastyczna siatka, do testowania zwijalności poziomów w ramach każdego czynnika?
Jeśli odpowiedź na pierwsze pytanie brzmi „tak”, czy można i należy to ustawić w taki sposób, aby załamanie poziomów i oszacowanie współczynników modelu nastąpiło w jednym kroku?

categorical-data lasso elastic-net log-linear many-categories andrewH
źródło

Niniejszy dokument, doi.org/10.1177/1471082X16642560 , zawiera ładny przegląd tego, co zostało zrobione w tym obszarze w ciągu ostatniej dekady.

Jorne Biccler,

Uwaga: kara, którą omawiam poniżej, to równanie 3.4 w linku @JorneBiccler. (Ciekawe, że to pytanie zostało wcześniej rozważone!)

user795305

Możliwy duplikat zmiennych kategorialnych Preprocess z wieloma wartościami

kjetil b halvorsen

Jak możemy nazwać to duplikatem pytania, które go poprzedziło?

Michael R. Chernick

Odpowiedzi:

To jest możliwe. W tym celu możemy użyć wariantu stopionego lassa .

Możemy użyć estymatora

\hat{β} = \arg min_{β} \frac{- 1}{n} \sum_{i = 1}^{n} (y_{i} β^{T} x_{i} - e^{β^{T} x_{i}}) + \sum_{factors g} λ_{g} (\sum_{j \in g} | β_{j} | + \frac{1}{2} \sum_{j, k \in g} | β_{j} - β_{k} |) .

$\hat{\beta} = \arg\min_{\beta} \frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right) + \sum_{\textrm{factors g}} \lambda_g \left(\sum_{j \in g} |\beta_j| + \frac{1}{2} \sum_{j,k \in g} |\beta_j - \beta_k| \right).$

Zauważ, że jest funkcją straty dla log-liniowej modele. $\frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right)$

To zachęca do równości współczynników w grupie. Ta równość współczynników jest równoważna zwijaniu poziomów i razem. W przypadku, gdy , jest to równoważne poziomu z poziomem odniesienia. Parametry strojenia można traktować jako stałe, ale jeśli jest tylko kilka czynników, lepiej traktować je jako osobne. $j^{th}$ $k^{th}$ $\hat{\beta}_j=0$ $j^{th}$ $\lambda_g$

Estymator jest minimalizatorem funkcji wypukłej, dzięki czemu można go skutecznie obliczyć za pomocą dowolnych solverów. Możliwe, że jeśli czynnik ma wiele, wiele poziomów, te pary różnice wymkną się z rąk --- w tym przypadku konieczna będzie większa wiedza na temat możliwych wzorów zapaści.

Pamiętaj, że wszystko to odbywa się w jednym kroku! Jest to część tego, co sprawia, że estymatory typu lasso są tak fajne!

Innym interesującym podejściem jest użycie estymatora OSCAR, który jest podobny do powyższego, z wyjątkiem kary jest zastąpiony przez . $\|[-1 \, 1] \cdot [\beta_i \, \beta_j]'\|_1$ $\|[\beta_i \, \beta_j]\|_\infty$

użytkownik795305
źródło