Dopasowuję krokową regresję logistyczną dla zestawu danych w SPSS. W procedurze dopasowuję mój model do losowego podzbioru, który jest ok. 60% całej próby, co stanowi około 330 przypadków.
Interesujące jest dla mnie to, że za każdym razem, gdy ponownie próbkuję moje dane, pojawiają się różne zmienne w końcowym modelu. Kilka predyktorów jest zawsze obecnych w ostatecznym modelu, ale inne pojawiają się i znikają w zależności od próbki.
Moje pytanie brzmi: Jaki jest najlepszy sposób, aby sobie z tym poradzić? Miałem nadzieję zobaczyć zbieżność zmiennych predykcyjnych, ale tak nie jest. Niektóre modele mają znacznie bardziej intuicyjny sens z perspektywy operacyjnej (i byłyby łatwiejsze do wyjaśnienia decydentom), a inne nieco lepiej pasują do danych.
Krótko mówiąc, skoro zmienne tasują się wokoło, jak poleciłbyś poradzić sobie z moją sytuacją?
Z góry bardzo dziękuję.
źródło
Ważnym pytaniem jest „dlaczego chcesz model z możliwie najmniejszą liczbą zmiennych?”. Jeśli chcesz mieć jak najmniej zmiennych, aby zminimalizować koszty gromadzenia danych do operacyjnego użytkowania twojego modelu, odpowiedzi udzielone przez Whubera i MBQa są doskonałym początkiem.
Jeśli wydajność predykcyjna jest naprawdę ważna, prawdopodobnie lepiej nie wybierać żadnych funkcji i stosować zamiast tego regaryzowaną regresję logistyczną (por. Regresja grzbietu). W rzeczywistości, jeśli wydajność predykcyjna była najważniejsza, wykorzystałbym zapakowaną regaryzowaną regresję logistyczną jako swego rodzaju strategię „pasów i nawiasów klamrowych”, aby uniknąć nadmiernego dopasowania małego zestawu danych. Millar w swojej książce na temat wyboru podzbiorów w regresji daje prawie taką radę w dodatku, i uważam, że jest to doskonała rada w przypadku problemów z wieloma funkcjami i niezbyt wieloma obserwacjami.
Jeśli zrozumienie danych jest ważne, nie ma potrzeby, aby model używany do zrozumienia danych był taki sam, jak używany do prognozowania. W takim przypadku wielokrotnie próbowałem ponownie dane i sprawdzałem wzorce wybranych zmiennych w próbkach, aby znaleźć, które zmienne mają charakter informacyjny (jak sugeruje mbq, jeśli wybór funkcji jest niestabilny, pojedyncza próbka nie da pełnego obrazu), ale nadal korzystałbym z zapakowanego zestawu regularnych modeli regresji logistycznej do prognoz.
źródło
Zasadniczo istnieją dwa problemy z wyborem funkcji:
Konwergencja wyboru predyktorów leży w obszarze wszystkich istotnych problemów, które są piekielnie trudne, a zatem wymagają znacznie potężniejszych narzędzi niż regresja logistyczna, ciężkie obliczenia i bardzo ostrożne traktowanie.
Ale wygląda na to, że robisz pierwszy problem, więc nie powinieneś się tym martwić. Zasadniczo mogę odpowiedzieć na pytanie drugiego whubera, ale nie zgadzam się z twierdzeniem, że należy zrezygnować z ponownego próbkowania - tutaj nie będzie to metoda stabilizacji wyboru funkcji, ale mimo to będzie to symulacja do oszacowania wydajności wyboru połączonej funkcji + treningu , dzięki czemu uzyskasz wgląd w swoją dokładność.
źródło
Możesz rzucić okiem na artykuł Wybór stabilności autorstwa Meinshausena i Buhlmanna w JR Statist. Soc B (2010) 72 część 4 i dyskusja po nim. Zastanawiają się, co się stanie, gdy kilkakrotnie losowo podzielisz zestaw punktów danych na dwie połowy i poszukasz funkcji w każdej połowie. Zakładając, że to, co widzisz w jednej połowie, jest niezależne od tego, co widzisz w dopasowywanej drugiej połowie, możesz udowodnić granice oczekiwanej liczby fałszywie wybranych zmiennych.
źródło
Nie używaj krok po kroku! Zobacz mój artykuł
źródło