Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej funkcji (kolumny). Jaki jest dobry sposób na agregację tych ważności funkcji?
Myślałem o zsumowaniu lub uzyskaniu średniego znaczenia dla wszystkich poziomów cechy (prawdopodobnie ta pierwsza będzie tendencyjna w stosunku do tych cech z większą liczbą poziomów). Czy są jakieś odniesienia w tej sprawie?
Co jeszcze można zrobić, aby zmniejszyć liczbę funkcji? Zdaję sobie sprawę z grupy lasso, nie mogłem znaleźć nic łatwego w użyciu do scikit-learn.
źródło
Odpowiedzi:
To zależy od tego, jak szybko je kodujesz. Wiele zautomatyzowanych rozwiązań tego nazwie wszystkie przekształcone logiczne wzorcem, tak aby zmienna kategorialna zwana „literą” z wartościami AZ wyglądała następująco:
litera A, litera B, litera C, litera D, ....
Jeśli po ustaleniu ważności cechy masz zestaw cech i związaną z nimi wagę / wagę, przeanalizuję tablicę i być może podsumuję wagi ważności cechy dla czegoś zaczynającego się od „litery%”.
źródło