To pytanie może być tutaj lub na SO może ...
Załóżmy, że Twój zestaw danych szkoleniowych zawiera zarówno dane jakościowe, jak i ciągłe, takie jak ta konfiguracja:
Animal, breed, sex, age, weight, blood_pressure, annual_cost
cat, calico, M, 10, 15 , 100 , 100
cat, tabby, F, 5, 10 , 80 , 200
dog, beagle, M, 3, 30 , 90 , 200
dog, lab, F, 8, 75 , 80 , 100
Zmienną zależną, którą należy przewidzieć, jest roczny koszt weterynarza. Jestem trochę zdezorientowany co do konkretnych dostępnych technik radzenia sobie z takim zestawem danych. Jakie metody są powszechnie stosowane w przypadku zestawów danych, które są mieszaniną zarówno ciągłych, jak i kategorycznych danych?
źródło
Powinieneś rzucić okiem na wstępne przetwarzanie danych . Przed każdą techniką uczenia maszynowego. Oto dobre wprowadzenie (znalezione w Google).
Jeśli chodzi o techniki, istnieje wiele różnych podejść . Prawdopodobnie możesz użyć większości z nich po wstępnym przetworzeniu danych. Powinieneś spróbować i wybrać ten, który najlepiej odpowiada Twoim potrzebom.
źródło