Niektóre techniki modelowania predykcyjnego są bardziej zaprojektowane do obsługi ciągłych predyktorów, podczas gdy inne są lepsze do obsługi zmiennych jakościowych lub dyskretnych. Oczywiście istnieją techniki przekształcania jednego typu na inny (dyskretyzacja, zmienne fikcyjne itp.). Czy są jednak jakieś techniki modelowania predykcyjnego, które zostały zaprojektowane do obsługi obu typów danych wejściowych w tym samym czasie bez zwykłego przekształcania rodzaju funkcji? Jeśli tak, to czy te techniki modelowania działają lepiej na danych, do których są bardziej naturalne?
Najbliższa rzecz, że wiem to, że zwykle drzewa decyzyjne obsługi danych dyskretnych dobrze i obsługi danych, bez konieczności ciągłych górę przednią dyskretyzacji. Jednak nie do końca tego szukałem, ponieważ efektywne podziały na ciągłe funkcje są tylko formą dynamicznej dyskretyzacji.
Dla odniesienia, oto kilka powiązanych, nie dublujących się pytań:
źródło
Odpowiedzi:
O ile mi wiadomo i dogłębnie badałem ten problem w przeszłości, nie ma technik modelowania predykcyjnego (oprócz drzew, XgBoost itp.), Które są zaprojektowane do obsługi obu typów danych wejściowych w tym samym czasie bez zwykłego przekształcania rodzaj funkcji.
Zauważ, że algorytmy takie jak Random Forest i XGBoost akceptują dane mieszane, ale stosują pewną logikę do obsługi ich podczas podziału węzła. Upewnij się, że rozumiesz logikę „pod maską” i że jesteś w porządku z tym, co dzieje się w czarnej skrzynce.
Niektóre znane funkcje odległości dla cech jakościowych:
Odległość Levenshtien (lub dowolna forma „odległość edycji”)
Najdłuższa wspólna podsekwencja
źródło
Wiem, że minęło trochę czasu od opublikowania tego pytania, ale jeśli nadal patrzysz na ten problem (lub podobny), możesz rozważyć użycie uogólnionych modeli addytywnych (GAM). Nie jestem ekspertem, ale modele te pozwalają łączyć różne modele, aby stworzyć jedną prognozę. Proces zastosowany do znalezienia współczynników dla modeli, które wprowadziłeś rozwiązuje dla wszystkich z nich jednocześnie, dzięki czemu możesz wysłać uogólniony model addytywny do swojego ulubionego modelu predyktorów jakościowych i swojego ulubionego modelu predyktorów ciągłych i uzyskać pojedynczy model, który minimalizuje RSS lub jakiekolwiek inne kryterium błędu, którego chcesz użyć.
Poza moim szczytem jedynym pakietem oprogramowania, który znam zaimplementowaniem GAM, jest język R, ale jestem pewien, że istnieją inne.
źródło
Chociaż dyskretyzacja przekształca dane ciągłe w dane dyskretne, nie można powiedzieć, że zmienne pozorne przekształcają dane kategoryczne w dane ciągłe. Rzeczywiście, ponieważ algorytmy można uruchamiać na komputerach, nie może być algorytmu klasyfikującego, który NIE przekształca danych kategorycznych w zmienne pozorne.
W tym samym sensie klasyfikator ostatecznie przekształca predyktory w dyskretną zmienną wskazującą przynależność do klasy (nawet jeśli generuje prawdopodobieństwo klasy, ostatecznie wybierasz wartość odcięcia). De facto wiele klasyfikatorów, takich jak regresja logistyczna, losowy las, drzewa decyzyjne i SVM, działa dobrze z oboma typami danych.
Podejrzewam, że trudno byłoby znaleźć algorytm, który działałby z danymi ciągłymi, ale w ogóle nie byłby w stanie obsłużyć danych kategorycznych. Zwykle stwierdzam, że ma to większy wpływ na rodzaj danych, które masz po lewej stronie modelu.
źródło
Jest to głębokie filozoficzne pytanie, na które często zwraca się uwagę zarówno w dziedzinie statystyki, jak i uczenia maszynowego. Niektórzy twierdzą, że kategoryzacja jest lepsza dla wskaźnika dyskretnego do kategorialnego, dzięki czemu pakiety mogą łatwo przetrawić dane wejściowe modelu. Inni twierdzą, że binowanie może powodować utratę informacji, ale zmienne jakościowe mogą / muszą zostać przekonwertowane na zmienne wskaźnikowe {1,0}, pomijając ostatnią klasę dla reszt modelu.
Książka - Zastosowana regresja liniowa (Kutner i in.) Wspomina o logice wprowadzania zmiennych wskaźnikowych do modelu w kilku pierwszych rozdziałach. Może być też inny podobny tekst.
Moje zdanie na ten temat może być nieco zbyt daleko idące: jeśli wyobrażamy sobie zmienne kategoryczne, takie jak bloki w projekcie eksperymentalnym, zmienna wskaźnikowa jest naturalnym rozszerzeniem analizy danych nieopartej na eksperymentach. W odniesieniu do algorytmów eksploracji danych (rodziny drzew decyzyjnych) kategoryzacja jest nieunikniona (ręczne lub automatyczne binowanie), które należy podać do modelu.
Dlatego może nie istnieć model, który byłby wyspecjalizowany dla zmiennych liczbowych, a także zmiennych kategorialnych w ten sam sposób (bez binowania-liczbowego lub używania wskaźników-kategorialnych).
źródło