W zbiorze danych dwóch nie pokrywających się populacji (pacjenci i osoby zdrowe, ogółem ) chciałbym znaleźć (spośród zmiennych niezależnych) znaczące predyktory dla zmiennej zależnej ciągłej. Występuje korelacja między predyktorami. Chcę dowiedzieć się, czy któryś z predyktorów jest powiązany ze zmienną zależną „w rzeczywistości” (zamiast przewidywać zmienną zależną tak dokładnie, jak to możliwe). Ponieważ byłem przytłoczony wieloma możliwymi podejściami, chciałbym zapytać, które podejście jest najbardziej zalecane.
Z mojego rozumienia nie jest zalecane stopniowe włączanie lub wyłączanie predyktorów
Np. Uruchom regresję liniową osobno dla każdego predyktora i popraw wartości p dla wielokrotnego porównania przy użyciu FDR (prawdopodobnie bardzo zachowawczy?)
Regresja składowych głównych: trudna do interpretacji, ponieważ nie będę w stanie powiedzieć o mocy predykcyjnej poszczególnych predyktorów, ale tylko o składnikach.
jakieś inne sugestie?
Odpowiedzi:
Poleciłbym wypróbowanie glm z regularyzacją lasso . Dodaje to karę do modelu za liczbę zmiennych, a wraz ze wzrostem kary liczba zmiennych w modelu będzie się zmniejszać.
Powinieneś użyć weryfikacji krzyżowej, aby wybrać wartość parametru kary. Jeśli masz R, sugeruję użycie pakietu glmnet . Użyj
alpha=1
do regresji Lasso ialpha=0
regresji kalenicowej. Ustawienie wartości od 0 do 1 spowoduje użycie kombinacji kar lasso i kalenicy, znanych również jako elastyczna siatka.źródło
Aby rozwinąć odpowiedź Zacha (+1), jeśli używasz metody LASSO w regresji liniowej, próbujesz zminimalizować sumę funkcji kwadratowej i funkcji wartości bezwzględnej, tj .:
Pierwsza część jest kwadratowaβ (złoto poniżej), a druga to krzywa w kształcie kwadratu (zielona poniżej). Czarna linia to linia przecięcia.
Minimum leży na krzywej przecięcia, narysowanej tutaj krzywymi konturowymi krzywej kwadratowej i kwadratowej:
Możesz zobaczyć, że minimum znajduje się na jednej z osi, dlatego wyeliminowało tę zmienną z regresji.
Możesz sprawdzić mój post na blogu za pomocąL 1 kary za regresję i selekcję zmiennych (inaczej znaną jako regularyzacja Lasso).
źródło
Jakie jest Twoje wcześniejsze przekonanie, ile predyktorów może być ważnych? Czy prawdopodobne jest, że większość z nich ma efekt dokładnie zerowy, lub że wszystko wpływa na wynik, niektóre zmienne tylko mniej niż inne?
W jaki sposób stan zdrowia jest powiązany z zadaniem predykcyjnym?
Jeśli uważasz, że tylko kilka zmiennych jest ważnych, możesz wypróbować wcześniej spike i slab (na przykład w pakiecie spikeSlabGAM R) lub L1. Jeśli uważasz, że wszystkie predyktory wpływają na wynik, możesz mieć pecha.
Zasadniczo obowiązują wszystkie zastrzeżenia dotyczące wnioskowania przyczynowego na podstawie danych obserwacyjnych.
źródło
Cokolwiek robisz, warto ustawić przedziały ufności ładowania początkowego w szeregach predyktorów, aby pokazać, że naprawdę możesz to zrobić za pomocą zestawu danych. Wątpię, aby którakolwiek z metod mogła niezawodnie znaleźć „prawdziwe” predyktory.
źródło
Pamiętam, że regresja Lasso nie działa zbyt dobrze, kiedyn ≤ p , ale nie jestem pewien. Myślę, że w tym przypadku elastyczna siatka jest bardziej odpowiednia do wyboru zmiennych.
źródło