Moja sytuacja:
- mała wielkość próby: 116
- binarna zmienna wyniku
- długa lista zmiennych objaśniających: 44
- zmienne objaśniające nie pochodziły z mojej głowy; ich wybór opierał się na literaturze.
- większość przypadków w próbie i większość zmiennych ma brakujące wartości.
Podejdź do wybranego wyboru funkcji: LASSO
Pakiet glmnet R nie pozwala mi uruchomić procedury glmnet, prawdopodobnie z powodu istnienia brakujących wartości w moim zestawie danych. Wydaje się, że istnieją różne metody postępowania z brakującymi danymi, więc chciałbym wiedzieć:
- Czy LASSO nakłada jakiekolwiek ograniczenia w zakresie metody imputacji, której mogę użyć?
- Jaki byłby najlepszy zakład dla metody imputacji? Idealnie potrzebuję metody, którą mógłbym uruchomić na SPSS (najlepiej) lub R.
AKTUALIZACJA 1: Z niektórych poniższych odpowiedzi stało się jasne, że zajmowałem się bardziej podstawowymi zagadnieniami przed rozważeniem metod imputacji. Chciałbym tutaj dodać nowe pytania na ten temat. W odpowiedzi sugerującej kodowanie jako wartość stałą i utworzenie nowej zmiennej w celu radzenia sobie z wartościami „nie dotyczy” i użyciem lasso grupowego:
- Czy powiedziałbyś, że jeśli użyję grupy LASSO, będę w stanie zastosować podejście sugerowane do predyktorów ciągłych, a także predyktorów kategorycznych? Jeśli tak, zakładam, że byłoby to równoznaczne z utworzeniem nowej kategorii - obawiam się, że może to wprowadzić uprzedzenia.
- Czy ktoś wie, czy pakiet glmnet R obsługuje grupę LASSO? Jeśli nie, czy ktoś zaproponowałby inną, która robi to w połączeniu z regresją logistyczną? Kilka opcji wspominających o grupie LASSO można znaleźć w repozytorium CRAN, czy są jakieś sugestie najbardziej odpowiednie dla mojego przypadku? Może SGL?
Jest to kontynuacja mojego poprzedniego pytania ( Jak wybrać podzbiór zmiennych z mojej oryginalnej długiej listy, aby przeprowadzić analizę regresji logistycznej? ).
OBS: Nie jestem statystykiem.
źródło
Odpowiedzi:
Gdy predyktor ciągłyx zawiera wartości „nie dotyczy”, często przydatne jest jego zakodowanie za pomocą dwóch zmiennych:
gdziec jest stałą, i
Załóżmy, że liniowy predyktor odpowiedzi jest podany przez
co rozwiązuje
gdyx jest mierzone lub
gdy x nie ma zastosowania. Wybórc jest arbitralny i nie wpływa na oszacowania przecięcia β0 lub nachylenia β1 ; β2 przedstawiono wpływ x „S oznacza«nie ma zastosowania»w stosunku do tego, kiedy x=c .
Korzystanie z LASSO wprowadza dwa problemy:
źródło
Wielokrotne przypisywanie nigdy nie jest złym podejściem. Możesz także zrobić pełne informacje Maksymalne prawdopodobieństwo. Dobra recenzja i porównanie tutaj i tutaj .
Ale jeśli idziesz tą drogą, rozważ użycie Stana, aby dopasować przypisanie ML jednocześnie z regresją jako pojedynczym modelem Bayesa, ponieważ LASSO jest szczególnym przypadkiem regresji Bayesa .
źródło
mi
który może ci pomóc.Amelia
imice
.Polecenie CATREG w statystykach obsługuje brakujące dane za pomocą LASSO. Możesz wykluczyć przypadki na liście lub przypisać procedurę Chociaż jej nazwa sugeruje, że dotyczy zmiennych jakościowych, możesz ustawić skalę na Numeryczną, aby obsłużyć ciągły przypadek.
źródło
PROC CATREG
, tak sądzę?Możesz również rozważyć proste podejście przedstawione w następującym artykule:
Loh, PL i Wainwright, MJ (2011). Regresja wielowymiarowa z zaszumionymi i brakującymi danymi: możliwe do udowodnienia gwarancje bez wypukłości . W Advances in Neural Information Processing Systems (str. 2726–2734).
źródło