Stopniowa regresja logistyczna i pobieranie próbek

13

Dopasowuję krokową regresję logistyczną dla zestawu danych w SPSS. W procedurze dopasowuję mój model do losowego podzbioru, który jest ok. 60% całej próby, co stanowi około 330 przypadków.

Interesujące jest dla mnie to, że za każdym razem, gdy ponownie próbkuję moje dane, pojawiają się różne zmienne w końcowym modelu. Kilka predyktorów jest zawsze obecnych w ostatecznym modelu, ale inne pojawiają się i znikają w zależności od próbki.

Moje pytanie brzmi: Jaki jest najlepszy sposób, aby sobie z tym poradzić? Miałem nadzieję zobaczyć zbieżność zmiennych predykcyjnych, ale tak nie jest. Niektóre modele mają znacznie bardziej intuicyjny sens z perspektywy operacyjnej (i byłyby łatwiejsze do wyjaśnienia decydentom), a inne nieco lepiej pasują do danych.

Krótko mówiąc, skoro zmienne tasują się wokoło, jak poleciłbyś poradzić sobie z moją sytuacją?

Z góry bardzo dziękuję.

Btibert3
źródło

Odpowiedzi:

16

Jeśli zamierzasz zastosować procedurę krokową, nie próbuj ponownie. Utwórz jedną losową podpróbkę raz na zawsze. Wykonaj na nim swoją analizę. Sprawdź poprawność wyników w stosunku do przetrzymywanych danych. Prawdopodobnie większość „znaczących” zmiennych okaże się nieistotna.

( Edytuj 12/2015: Rzeczywiście możesz wyjść poza takie proste podejście poprzez ponowne próbkowanie, powtórzenie procedury krokowej i ponowną walidację: doprowadzi to do pewnej formy walidacji krzyżowej. Ale w takim przypadku bardziej wyrafinowane metody zmiennej wybór, taki jak regresja kalenicy, Lasso i elastyczna siatka, są prawdopodobnie lepsze niż regresja stopniowa).

dopfat

(Zakładam, że już przeprowadziłeś analizę i badanie w celu zidentyfikowania odpowiednich ponownych wyrażeń zmiennych niezależnych, że zidentyfikowałeś prawdopodobne interakcje i że ustaliłeś, że naprawdę istnieje w przybliżeniu liniowy związek między logitem zmiennej zależnej i regresory. Jeśli nie, wykonaj tę zasadniczą pracę wstępną, a dopiero potem wróć do regresji stopniowej).

Nawiasem mówiąc, bądź ostrożny, postępując zgodnie z ogólnymi radami, które właśnie dałam :-). Twoje podejście powinno zależeć od celu analizy (przewidywanie? Ekstrapolacja? Zrozumienie naukowe? Podejmowanie decyzji?), A także od charakteru danych, liczby zmiennych itp.

Whuber
źródło
2
+1 za podkreślenie znaczenia interpretacji modelu. Nie dodam nic na temat niedoinformowanego podejścia ML (lub metod zespolonych) z bardziej złożonymi schematami walidacji krzyżowej, ponieważ wydaje mi się, że już powiedziałeś, co tak naprawdę ma znaczenie: (1) wybór funkcji poprzez ponowne próbkowanie jest trudny do interpretacji w oderwaniu (tj. porównując jeden wynik po drugim) i (2) wszystko zależy od tego, czy szukamy modelu predykcyjnego, czy objaśniającego.
chl
Dzięki za wgląd. Zrobiłem trochę wstępnego przeglądu, aby zawęzić moje pole wyszukiwania i po prostu chcę znaleźć najlepszy model do przewidywania z najmniejszą liczbą zmiennych. Wrzucam tylko 7 predyktorów do modelu, co, jak rozumiem, powinno być w porządku. Rozumiem pomysł trzymania się próbki, ale z drugiej strony mój model był zasadniczo inny i pokazuje, że wyniki są całkowicie zależne od próbki, co spowodowało, że się zatrzymałem.
Btibert3,
@ Btibert3 Racja: gdy wyniki różnią się między losowymi podzbiorami danych, możesz uznać to za dowód, że zmienne niezależne nie są silnymi lub spójnymi predyktorami zmiennej niezależnej.
whuber
12

Ważnym pytaniem jest „dlaczego chcesz model z możliwie najmniejszą liczbą zmiennych?”. Jeśli chcesz mieć jak najmniej zmiennych, aby zminimalizować koszty gromadzenia danych do operacyjnego użytkowania twojego modelu, odpowiedzi udzielone przez Whubera i MBQa są doskonałym początkiem.

Jeśli wydajność predykcyjna jest naprawdę ważna, prawdopodobnie lepiej nie wybierać żadnych funkcji i stosować zamiast tego regaryzowaną regresję logistyczną (por. Regresja grzbietu). W rzeczywistości, jeśli wydajność predykcyjna była najważniejsza, wykorzystałbym zapakowaną regaryzowaną regresję logistyczną jako swego rodzaju strategię „pasów i nawiasów klamrowych”, aby uniknąć nadmiernego dopasowania małego zestawu danych. Millar w swojej książce na temat wyboru podzbiorów w regresji daje prawie taką radę w dodatku, i uważam, że jest to doskonała rada w przypadku problemów z wieloma funkcjami i niezbyt wieloma obserwacjami.

Jeśli zrozumienie danych jest ważne, nie ma potrzeby, aby model używany do zrozumienia danych był taki sam, jak używany do prognozowania. W takim przypadku wielokrotnie próbowałem ponownie dane i sprawdzałem wzorce wybranych zmiennych w próbkach, aby znaleźć, które zmienne mają charakter informacyjny (jak sugeruje mbq, jeśli wybór funkcji jest niestabilny, pojedyncza próbka nie da pełnego obrazu), ale nadal korzystałbym z zapakowanego zestawu regularnych modeli regresji logistycznej do prognoz.

Dikran Torbacz
źródło
1
+1 za wskaźnik do regularnej regresji logistycznej. Nie jest jednak jasne, jak można formalnie „spojrzeć na wzorce” podczas wielokrotnego próbkowania „danych”. To brzmi jak szpiegowanie danych i dlatego może prowadzić do frustracji i błędów.
whuber
5
Wybór funkcji, gdy wybór jest niestabilny, zawsze będzie receptą na frustrację i błędy. Użycie tylko jednej próbki zmniejsza frustrację, ale zwiększa prawdopodobieństwo błędu, ponieważ zachęca do wyciągania wniosków na temat istotnych cech problemu w oparciu o to, co działa najlepiej na konkretnej próbce, na którą patrzysz - co jest formą nadmiernego dopasowywanie. Ponowne próbkowanie daje wyobrażenie o niepewności w wyborze funkcji - co często jest równie ważne. W takim przypadku nie powinniśmy wyciągać żadnych silnych wniosków na temat odpowiednich funkcji, ponieważ nie ma wystarczającej ilości danych.
Dikran Torbacz
Słuszna uwaga; Nienawidzę, gdy ludzie liczą tylko środki z ponownego próbkowania, to takie marnotrawstwo.
10

Zasadniczo istnieją dwa problemy z wyborem funkcji:

  • minimalna optymalna , gdzie poszukujesz najmniejszego zestawu zmiennych, które dają najmniejszy błąd
  • wszystkie istotne , gdy szukasz wszystkich zmiennych istotnych w problemie

Konwergencja wyboru predyktorów leży w obszarze wszystkich istotnych problemów, które są piekielnie trudne, a zatem wymagają znacznie potężniejszych narzędzi niż regresja logistyczna, ciężkie obliczenia i bardzo ostrożne traktowanie.

Ale wygląda na to, że robisz pierwszy problem, więc nie powinieneś się tym martwić. Zasadniczo mogę odpowiedzieć na pytanie drugiego whubera, ale nie zgadzam się z twierdzeniem, że należy zrezygnować z ponownego próbkowania - tutaj nie będzie to metoda stabilizacji wyboru funkcji, ale mimo to będzie to symulacja do oszacowania wydajności wyboru połączonej funkcji + treningu , dzięki czemu uzyskasz wgląd w swoją dokładność.


źródło
+1 Martwię się, że wiele ponownych próbkowania będzie tylko mylące i wprowadzające w błąd. Ponowne próbkowanie w kontrolowany sposób, poprzez weryfikację krzyżową lub próbkę do weryfikacji, oczywiście nie stanowi problemu.
whuber
6

Możesz rzucić okiem na artykuł Wybór stabilności autorstwa Meinshausena i Buhlmanna w JR Statist. Soc B (2010) 72 część 4 i dyskusja po nim. Zastanawiają się, co się stanie, gdy kilkakrotnie losowo podzielisz zestaw punktów danych na dwie połowy i poszukasz funkcji w każdej połowie. Zakładając, że to, co widzisz w jednej połowie, jest niezależne od tego, co widzisz w dopasowywanej drugiej połowie, możesz udowodnić granice oczekiwanej liczby fałszywie wybranych zmiennych.

McDowella
źródło