Mam zestaw danych z 330 próbkami i 27 funkcjami dla każdej próbki, z problemem klasy binarnej dla regresji logistycznej.
Zgodnie z „regułą, jeśli dziesięć” potrzebuję co najmniej 10 zdarzeń, aby każda funkcja mogła zostać uwzględniona. Chociaż mam niezrównoważony zestaw danych, z 20% klasy dodatniej i 80% klasy ujemnej.
To daje mi tylko 70 zdarzeń, co pozwala na włączenie tylko około 7/8 funkcji do modelu logistycznego.
Chciałbym ocenić wszystkie funkcje jako predyktory, nie chcę ręcznie wybierać żadnych funkcji.
Co byś zasugerował? Czy powinienem wykonać wszystkie możliwe 7 kombinacji funkcji? Czy powinienem oceniać każdą cechę osobno za pomocą modelu asocjacji, a następnie wybrać tylko te najlepsze dla ostatecznego modelu?
Jestem również ciekawy obsługi funkcji jakościowych i ciągłych, czy mogę je łączyć? Jeśli mam kategoryczne [0–1] i ciągłe [0–100], czy powinienem się normalizować?
Obecnie pracuję z Python.
Bardzo dziękuję za Twoją pomoc!
Odpowiedzi:
Aby zredukować model do 7 zmiennych, możesz zastosować kilka metod:
Jak skomentował @ E_net4, twoje ciągłe pytanie zostało poruszone w innym poście.
źródło
Zbyt poważnie traktujesz „Regułę 10”. To bardzo surowa zasada. Nie jest przeznaczony do używania tak, jak go używasz.
Wygląda na to, że myślisz: „Mam tylko 70 pozytywnych wystąpień, więc zgodnie z regułą 10 mogę korzystać tylko z 7 funkcji; jak wybrać 7 z nich?”
Nie to oznacza Reguła 10. Nie jest to żadna reguła określająca, ile funkcji możesz używać. Reguła 10 ma charakter opisowy, a nie nakazowy, i stanowi przybliżoną wytyczną: jeśli liczba wystąpień jest znacznie mniejsza niż 10-krotność liczby funkcji, istnieje szczególne ryzyko nadmiernego dopasowania i możesz uzyskać słabe wyniki.
Co powinieneś zrobić? Powinieneś zrobić to, co i tak: użyć regularyzacji i weryfikacji krzyżowej, aby wybrać hiper-parametry regularyzacji. Ważne jest również, aby mieć zestaw testowy, którego nie dotkniesz, dopóki nie sfinalizujesz wszystkiego o klasyfikatorze, aby uniknąć nadmiernego dopasowania i niedokładnych oszacowań dokładności.
A jeśli możesz uzyskać więcej danych, to naprawdę by pomogło.
Wreszcie, ponieważ masz niezrównoważone klasy, możesz rozważyć przeczytanie o nierównościach klas i metodach radzenia sobie z tym.
źródło