Czy w przypadku drzew decyzyjnych przewidywana wartość może leżeć poza zakresem danych szkoleniowych?
Na przykład, jeśli zakres zestawu danych treningowych zmiennej docelowej wynosi 0-100, to kiedy generuję mój model i stosuję go do czegoś innego, czy moje wartości mogą wynosić -5? lub 150?
Biorąc pod uwagę, że rozumiem regresję drzewa decyzyjnego, to że wciąż jest to reguła oparta na progresji - lewa / prawa i że na dole drzewa w zestawie treningowym nigdy nie zobaczy wartości poza określonym zakresem, nigdy nie będzie w stanie przewidzieć to?
regression
predictive-models
random-forest
cart
użytkownik3788557
źródło
źródło
Odpowiedzi:
Masz całkowitą rację: klasyczne drzewa decyzyjne nie mogą przewidzieć wartości poza historycznie obserwowanym zakresem. Nie będą ekstrapolować.
To samo dotyczy losowych lasów.
Teoretycznie czasem zdarzają się dyskusje o nieco bardziej skomplikowanych architekturach (botanach?), W których liście drzewa nie dają jednej wartości , ale zawierają prostą regresję , np. Regresję zmiennej zależnej od konkretnej zmiennej numerycznej niezależnej. Poruszanie się po drzewie dałoby ci zestaw reguł, na którym numerycznie IV można regresować DV, w którym to przypadku. W takim przypadku tę regresję „dolnego poziomu” można ekstrapolować, aby uzyskać wartości jeszcze nieobserwowane.
Jednak nie sądzę, aby standardowe biblioteki uczenia maszynowego oferowały tę nieco bardziej złożoną strukturę (ostatnio szukałem tego za pośrednictwem widoków zadań CRAN dla R), chociaż tak naprawdę nie powinno być w tym nic złożonego. Możliwe, że będziesz w stanie wdrożyć własne drzewo zawierające regresje w liściach.
źródło
mobForest
partykit
Sprawdź także kubistę w pakiecie Caret. Buduje regresje liniowe w końcowych węzłach i może ekstrapolować przewidywania powyżej i poniżej zakresu wartości odpowiedzi w danych treningowych. Węzły końcowe można również uśrednić w oparciu o najbliższych sąsiadów, który jest podany jako hiperparametr, więc może on zapewnić wyjątkowo dokładne prognozy zwalidowane krzyżowo.
źródło