Znaczenie cech z cechami jakościowymi wysokiej kardynalności dla regresji (zmienna zależna numerycznie)

12

Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej funkcji (kolumny). Jaki jest dobry sposób na agregację tych ważności funkcji?

Myślałem o zsumowaniu lub uzyskaniu średniego znaczenia dla wszystkich poziomów cechy (prawdopodobnie ta pierwsza będzie tendencyjna w stosunku do tych cech z większą liczbą poziomów). Czy są jakieś odniesienia w tej sprawie?

Co jeszcze można zrobić, aby zmniejszyć liczbę funkcji? Zdaję sobie sprawę z grupy lasso, nie mogłem znaleźć nic łatwego w użyciu do scikit-learn.

użytkownik90772
źródło
Czy ktoś może odpowiedzieć na pytanie, czy sumowanie zmiennej znaczenia każdego poziomu zmiennej jakościowej ma sens?
patrz 24
@ see24 Nie, nie możesz ich po prostu zsumować: stats.stackexchange.com/questions/314567/…
Dan

Odpowiedzi:

5

To zależy od tego, jak szybko je kodujesz. Wiele zautomatyzowanych rozwiązań tego nazwie wszystkie przekształcone logiczne wzorcem, tak aby zmienna kategorialna zwana „literą” z wartościami AZ wyglądała następująco:

litera A, litera B, litera C, litera D, ....

Jeśli po ustaleniu ważności cechy masz zestaw cech i związaną z nimi wagę / wagę, przeanalizuję tablicę i być może podsumuję wagi ważności cechy dla czegoś zaczynającego się od „litery%”.

CalZ
źródło
3
Czy suma nie daje przewagi tym funkcjom z większą liczbą poziomów?
user90772
Hmm, dobra racja. Może podsumuj, a następnie podziel przez liczbę poziomów / zmiennych zakodowanych jednokrotnie, aby uzyskać „średnie” znaczenie.
CalZ
2
Zastanowiłem się nad tym trochę i zależy to od tego, jak ważna jest ocena. W niektórych przypadkach wartość każdej funkcji jest względną wagą, w której cały zestaw wynosi 1. W takim przypadku, myślę, że sensowne byłoby podsumowanie pojedynczych cech. Gdyby wynik dla cechy bardziej przypominał współczynnik regresji i nie był ważony w stosunku do efektu netto, wówczas uśrednianie byłoby prawdopodobnie lepsze.
CalZ
Dziękuję za odpowiedź. Biorąc pod uwagę, że jestem całkiem nowy w tym obszarze, pomyślałem, że jest to standardowa rzecz dla ludzi w dziedzinie nauki o danych, ale albo nie jest to, co powinienem robić, aby ocenić znaczenie funkcji kolumny lub ten post nie uzyskał wystarczającej liczby wyświetleń. W każdym razie dziękuję!
user90772,
1
Wiele osób opowiada się za patrzeniem na elementy wewnętrzne modelu jako czarną skrzynką i ocenianiem ich wydajności. W niektórych przypadkach (np. Sieci neuronowe) dzieje się tak, ponieważ nie można tak naprawdę dokładnie go zbadać. W przypadku niektórych obszarów, w których można łatwo zobaczyć, które funkcje są ważne (np. Regresja liniowa), można łatwo wprowadzić w błąd (patrz: stats.stackexchange.com/questions/105114/… ). Myślę, że dlatego ludzie czasami unikają patrzenia na znaczenie poszczególnych cech.
CalZ