Mam dane z kilkoma tysiącami funkcji i chcę dokonać rekurencyjnego wyboru funkcji (RFE), aby usunąć te nieinformacyjne. Robię to z karetką i RFE. Jednak zacząłem myśleć, jeśli chcę uzyskać najlepsze dopasowanie regresji (na przykład losowy las), kiedy powinienem przeprowadzić strojenie parametrów ( mtry
dla RF)? Tak więc, jak rozumiem, Caret trenuje RF wielokrotnie w różnych podzbiorach funkcji ze stałym mottem. Przypuszczam, że optymalny mtry
powinien być znaleziony po zakończeniu wyboru funkcji, ale czy mtry
wartość użyta przez daszek wpłynie na wybrany podzbiór funkcji? Oczywiście korzystanie z karetki przy niskim mtry
jest znacznie szybsze.
Mam nadzieję, że ktoś mi to wyjaśni.
Odpowiedzi:
Jedną z rzeczy, które możesz chcieć przyjrzeć się, są regularne losowe lasy, które są specjalnie zaprojektowane do wyboru funkcji. W tym artykule wyjaśniono pojęcie i różnice między nimi a normalnymi losowymi lasami
Wybór funkcji za pomocą drzew regulowanych
Jest też pakiet RRF CRAN, który jest oparty na randomForest, który pozwoli ci łatwo wdrożyć je w R. Sam miałem szczęście z tą metodologią.
Jeśli chodzi o twoje początkowe pytanie, jedyną radą, jaką mogę udzielić, jest to, że jeśli masz dużo kolinearności, musisz użyć mniejszych rozmiarów drzew. Umożliwia to algorytmowi określenie ważności przy mniejszej interferencji od efektów kolinearności.
źródło
Możesz być w stanie użyć
caretFuncs
czegoś takiego:Można również sprawdzić
valSelRF
paczkę. Nie jestem pewien, czym różni się odregularized random forest
wspomnianego tutaj.źródło