Karane metody dla danych jakościowych: łączenie poziomów w czynnik

10

Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy czym poziomy te nie są rozróżnialne pod względem interakcji z innymi czynnikami. Dwa pytania:

  1. Czy istnieje sposób na zastosowanie modeli karanych, takich jak LASSO lub elastyczna siatka, do testowania zwijalności poziomów w ramach każdego czynnika?
  2. Jeśli odpowiedź na pierwsze pytanie brzmi „tak”, czy można i należy to ustawić w taki sposób, aby załamanie poziomów i oszacowanie współczynników modelu nastąpiło w jednym kroku?
andrewH
źródło
1
Niniejszy dokument, doi.org/10.1177/1471082X16642560 , zawiera ładny przegląd tego, co zostało zrobione w tym obszarze w ciągu ostatniej dekady.
Jorne Biccler,
1
Uwaga: kara, którą omawiam poniżej, to równanie 3.4 w linku @JorneBiccler. (Ciekawe, że to pytanie zostało wcześniej rozważone!)
user795305
Możliwy duplikat zmiennych kategorialnych Preprocess z wieloma wartościami
kjetil b halvorsen
Jak możemy nazwać to duplikatem pytania, które go poprzedziło?
Michael R. Chernick

Odpowiedzi:

4

To jest możliwe. W tym celu możemy użyć wariantu stopionego lassa .

Możemy użyć estymatora

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

Zauważ, że jest funkcją straty dla log-liniowej modele.1ni=1n(yiβTxieβTxi)

To zachęca do równości współczynników w grupie. Ta równość współczynników jest równoważna zwijaniu poziomów i razem. W przypadku, gdy , jest to równoważne poziomu z poziomem odniesienia. Parametry strojenia można traktować jako stałe, ale jeśli jest tylko kilka czynników, lepiej traktować je jako osobne.jthkthβ^j=0jthλg

Estymator jest minimalizatorem funkcji wypukłej, dzięki czemu można go skutecznie obliczyć za pomocą dowolnych solverów. Możliwe, że jeśli czynnik ma wiele, wiele poziomów, te pary różnice wymkną się z rąk --- w tym przypadku konieczna będzie większa wiedza na temat możliwych wzorów zapaści.

Pamiętaj, że wszystko to odbywa się w jednym kroku! Jest to część tego, co sprawia, że ​​estymatory typu lasso są tak fajne!


Innym interesującym podejściem jest użycie estymatora OSCAR, który jest podobny do powyższego, z wyjątkiem kary jest zastąpiony przez .[11][βiβj]1[βiβj]

użytkownik795305
źródło