Właściwie piszę implementację Losowych Lasów, ale uważam, że pytanie dotyczy drzew decyzyjnych (niezależnych od RF).
Zatem kontekst polega na tym, że tworzę węzeł w drzewie decyzyjnym, a zmienne predykcyjne i docelowe są ciągłe. Węzeł ma podzielony próg podziału danych na dwa zestawy i tworzę nową prognozę dla każdego podzbioru na podstawie średniej wartości docelowej w każdym zestawie. Czy to jest właściwe podejście?
Powód, dla którego pytam, jest taki, że przewidując zmienne binarne , uważam, że typowym (poprawnym?) Podejściem jest podzielenie danych na podzbiory 0 i 1 bez przyjmowania średniej z wierszy danych w każdym podzbiorze. Kolejne podziały zostaną podzielone na podzbiory drobnoziarniste, a biorąc pod uwagę średnią przy każdym wyniku podziału, kolejne podziały (niżej w drzewie decyzyjnym) działają na zmiennych, które są teraz ciągłymi, a nie zmiennymi binarnymi (ponieważ operujemy na wartościach błędów resztkowych zamiast pierwotnych cele).
Pytanie poboczne: Czy rozróżnienie między dwoma podejściami (binarne i ciągłe) jest znaczące - czy faktycznie dadzą identyczne wyniki dla pełnego drzewa decyzyjnego?
źródło
Odpowiedzi:
Jednym z potencjalnych problemów z drzewami jest to, że mają tendencję do słabego dopasowania do ogonów. Pomyśl o terminalnym węźle, który przechwytuje niski zakres zestawu treningowego. Będzie przewidywał za pomocą średniej z tych punktów treningowych, które zawsze będą zaniżać wynik (ponieważ jest to średnia).
Możesz wypróbować drzewa modelowe [1]. Będą pasować do modeli liniowych w węzłach końcowych i (myślę) wykonują lepszą pracę niż drzewa regresji. Jeszcze lepiej, użyj bardziej rozwiniętej wersji o nazwie Cubist, która łączy różne podejścia ([1] i [2] poniżej).
Modele te różnie obsługują predyktory ciągłe i dyskretne. Mogą wykonywać podział na wiele sposobów dla zmiennych kategorialnych. Kryterium podziału jest bardzo podobne do drzew CART.
Drzewa modelowe można znaleźć w R w pakiecie RWeka (zwanym „M5P”), a Cubist w pakiecie Cubist. Oczywiście możesz również używać Weka, a Cubist ma wersję C dostępną na stronie RuleQuest.
[1] Quinlan, J. (1992). Nauka z ciągłymi zajęciami. Materiały z 5. australijskiej wspólnej konferencji na temat sztucznej inteligencji, 343–348.
[2] Quinlan, J. (1993). Łączenie uczenia się opartego na instancjach i modelu. Materiały z dziesiątej międzynarodowej konferencji na temat uczenia maszynowego, 236–243.
źródło