Wprowadzenie:
Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą.
Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii.
Po badaniach na ten temat odkryłem, że LASSO i elastyczna siatka są powszechnie stosowane w przypadku dużych p, małych n. Niektóre z moich predyktorów są wysoce skorelowane i chcę zachować ich zgrupowania w ocenie ważności, dlatego zdecydowałem się na elastyczną sieć . Przypuszczam, że mogę użyć bezwzględnych wartości współczynników regresji jako miary ważności (popraw mnie, jeśli się mylę; mój zestaw danych jest znormalizowany).
Problem:
Ponieważ moja liczba próbek jest niewielka, jak mogę uzyskać stabilny model?
Moje obecne podejście polega na znalezieniu najlepszych parametrów dostrajania (lambda i alfa) w wyszukiwaniu siatki w 90% zbioru danych z 10-krotnym uśrednianiem wyników MSE w ramach krzyżowej weryfikacji. Następnie trenuję model z najlepszymi parametrami dostrajania na całym 90% zbioru danych. Jestem w stanie ocenić mój model za pomocą R podniesionego do kwadratu na wstrzymaniu 10% zbioru danych (co stanowi tylko 15 próbek).
Powtarzając tę procedurę, znalazłem dużą wariancję ocen kwadratowych R. Również liczba niezerowanych predyktorów jest różna, a także ich współczynniki.
Jak mogę uzyskać bardziej stabilną ocenę znaczenia predyktorów i bardziej stabilną ocenę wydajności modelu końcowego?
Czy mogę wielokrotnie uruchamiać procedurę, aby utworzyć wiele modeli, a następnie średnie współczynniki regresji? Czy powinienem użyć liczby wystąpień predyktora w modelach jako jego oceny ważności?
Obecnie mam około 40-50 niezerowanych predyktorów. Czy powinienem mocniej karać liczbę predyktorów, aby uzyskać lepszą stabilność?
Odpowiedzi:
„ Rzadkie algorytmy nie są stabilne: twierdzenie o braku obiadu ”
Myślę, że tytuł wiele mówi, jak zauważyłeś.
Sprawdź losowe lasso i wykład Petera Buhlmanna .
Aktualizacja:
Uważam, że ten artykuł jest łatwiejszy do naśladowania niż artykuł Meinshausena i Buhlmanna zatytułowany „Wybór stabilności”.
W „ Random Lasso ” autorzy rozważają dwie ważne wady lasso dla dużych , małych n problemów, to znaczy:p n
Główny pomysł na losowe lasso, który jest w stanie poradzić sobie z obydwoma wadami lasso, jest następujący
Próbki Bootstrap są rysowane w celu symulacji wielu zestawów danych. Ostateczne współczynniki uzyskuje się przez uśrednienie wyników każdej próbki bootstrap.
Byłoby wspaniale, gdyby ktoś mógł rozwinąć i wyjaśnić ten algorytm w odpowiedziach.
źródło
Jak stabilne są parametry strojenia?
Czy widzisz duże różnice między dobrością dopasowania (np. MSE z optymalizacją krzyżową optymalnego parametru) a 10% niezależnym testem?
Byłby to objaw nadmiernego dopasowania:
Istnieje kilka możliwości budowy takich agregowanych modeli:
Wyszukiwane hasła to „modele zagregowane”, „agregacja bootstrapu”, „workowanie”.
Myśl poboczna: niektóre typy danych miały oczekiwaną i możliwą do interpretacji kolinearność, która może powodować „przeskakiwanie” selekcji zmiennych między mniej więcej równymi rozwiązaniami.
źródło
Nie ma z tego wyjścia. Jak niektórzy powiedzieli, modele są z natury niestabilne (w przeciwnym razie statystyki nie byłyby potrzebne).
Ale sama niestabilność przynosi informacje. Zamiast próbować się go pozbyć, próbowałem to przeanalizować.
Przeprowadzam symulacje krzyżowe wiele razy, a następnie uzyskuję współczynniki dla najlepszych wybranych parametrów w każdym przebiegu i zestawiam je razem.
Następnie wyodrębniam współczynniki regresji dla każdej pary parametrów, co daje mi rozkład wartości dla każdego parametru. W ten sposób mogę użyć wartości średniej / mediany do opisania siły predyktora i jej odchylenia standardowego / IQR do opisania jego zmienności, to znaczy jej stabilności.
Bardzo stabilny predyktor oznacza, że można oczekiwać, że jego efekt będzie podobny również w przypadku nowych danych; predyktor, który jest niestabilny nawet w twoich danych, prawdopodobnie byłby bardzo niestabilny nawet w przypadku nowych danych.
źródło