Jaka jest słaba strona drzew decyzyjnych?

34

Drzewa decyzyjne wydają się być bardzo zrozumiałą metodą uczenia maszynowego. Raz utworzony może być łatwo sprawdzony przez człowieka, co jest wielką zaletą w niektórych aplikacjach.

Jakie są praktyczne słabe strony drzew decyzyjnych?

Łukasz Lew
źródło

Odpowiedzi:

37

Oto kilka, o których mogę myśleć:

  • Mogą być bardzo wrażliwe na małe zakłócenia danych: niewielka zmiana może spowodować drastycznie inne drzewo.
  • Mogą łatwo się dopasować. Można to zanegować metodami sprawdzania poprawności i przycinania, ale jest to szary obszar.
  • Mogą mieć problemy z przewidywaniem poza próbą (jest to związane z tym, że nie są gładkie).

Niektóre z nich są związane z problemem wielokoliniowości : gdy dwie zmienne wyjaśniają to samo, drzewo decyzyjne zachłannie wybierze najlepszą, podczas gdy wiele innych metod użyje ich obu. Metody złożone, takie jak losowe lasy, mogą do pewnego stopnia temu zaprzeczyć, ale tracisz łatwość zrozumienia.

Jednak największym problemem, przynajmniej z mojego punktu widzenia, jest brak zasadniczych ram probabilistycznych. Wiele innych metod ma między innymi przedziały ufności, rozkłady tylne itp., Które dają nam pojęcie o tym, jak dobry jest model. Drzewo decyzyjne jest ostatecznie heurystyką ad hoc, która może być nadal bardzo przydatna (doskonale nadają się do wyszukiwania źródeł błędów w przetwarzaniu danych), ale istnieje niebezpieczeństwo, że ludzie będą traktować dane wyjściowe jako „poprawny” model (z mojego doświadczenie, to się często zdarza w marketingu).

Simon Byrne
źródło
2
Z punktu widzenia ML drzewa mogą być testowane w taki sam sposób, jak każdy inny klasyfikator (na przykład CV). Nadal pokazuje raczej, że zdarzyło się ciężkie przełożenie ;-) Także RF ucieka przed wielokoliniowością nie dlatego, że jest złożony, ale dlatego, że jego drzewa są nieoptymalne.
2
Aby poznać probabilistyczną strukturę drzew decyzyjnych, zobacz DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ), który jest oparty na pracy „Wallace CS i Patrick JD,` Coding Decision Trees ', Machine Learning , 11, 1993, str. 7-22 ”.
emakalic
2
Ponadto, czy nie można uzyskać CI (dla prognoz) za pomocą ładowania początkowego?
Tal Galili,
@ Simon Byrne, mam pytanie dotyczące twojego komentarza „Jednak największym problemem, przynajmniej z mojego punktu widzenia, jest brak zasadniczych ram probabilistycznych”. Wybacz mi moją ignorancję, ale czy mógłbyś wskazać mi kilka praktycznych zasad probabilistycznych (szczególnie w kontekście klasyfikacji)? Jestem bardzo zainteresowany tym ograniczeniem drzew decyzyjnych.
Amelio Vazquez-Reina,
2
@AmV, jednym przykładem może być regresja logistyczna: możemy wykorzystać fakt, że każda obserwacja pochodzi z dwumianu, aby uzyskać pewność / wiarygodne przedziały i sprawdzić założenia modelu.
Simon Byrne,
23

Jedną wadą jest to, że zakłada się, że wszystkie warunki współdziałają. Oznacza to, że nie można mieć dwóch zmiennych objaśniających, które zachowują się niezależnie. Każda zmienna w drzewie jest zmuszona do interakcji z każdą zmienną w górę drzewa. Jest to wyjątkowo nieefektywne, jeśli istnieją zmienne, które nie mają interakcji lub są słabe.

Rob Hyndman
źródło
Zastanawiam się jednak, czy jest to praktyczne ograniczenie - dla zmiennej, która jedynie słabo wpływa na klasyfikację, moja intuicja jest taka, że ​​Drzewo prawdopodobnie nie podzieli się na tę zmienną (tj. nie będzie węzłem), co z kolei oznacza jest niewidoczny, jeśli chodzi o klasyfikację drzewa decyzyjnego.
doug
Mówię o słabych interakcjach, a nie o słabym wpływie na klasyfikację. Interakcja to związek między dwiema zmiennymi predykcyjnymi.
Rob Hyndman,
2
Może to być nieefektywne, ale struktura drzewa może sobie z tym poradzić.
Dlatego powiedziałem raczej nieefektywne niż stronnicze lub niepoprawne. Jeśli masz dużo danych, nie ma to większego znaczenia. Ale jeśli dopasujesz drzewo do kilkuset obserwacji, to zakładane interakcje mogą znacznie zmniejszyć dokładność predykcyjną.
Rob Hyndman,
2
Zgodzić się; Chciałem tylko to podkreślić. Nadal uważam, że zmniejszenie dokładności predykcyjnej można usunąć, stosując odpowiedni trening; w filogenetyce podobny problem (chciwość) jest redukowany przez skanowanie Monte Carlo możliwej przestrzeni drzewa w celu znalezienia tych o najwyższym prawdopodobieństwie - nie wiem, czy istnieje podobne podejście w statystykach, prawdopodobnie nikt nie przejmował się tym problemem do takich stopień.
12

Moja odpowiedź jest skierowana do CART (implementacje C 4.5 / C 5), choć nie sądzę, że są ograniczone do tego. Domyślam się, że właśnie to ma na myśli PO - zwykle to, co ktoś ma na myśli, mówiąc „Drzewo decyzyjne”.

Ograniczenia drzew decyzyjnych :


Niska wydajność

Przez „wydajność” nie rozumiem rozdzielczości, ale szybkość wykonania . Powodem tego jest to, że trzeba „przerysować drzewo” za każdym razem, gdy chcesz zaktualizować swój model CART - dane sklasyfikowane przez już wyszkolone Drzewo, które następnie chcesz dodać do Drzewa (tj. Użyć jako punkt danych treningowych) wymaga, aby zacząć od początku - instancji treningowych nie można dodawać przyrostowo, tak jak w przypadku większości innych nadzorowanych algorytmów uczenia się. Być może najlepszym sposobem na stwierdzenie tego jest to, że drzew decyzyjnych nie można trenować w trybie online, a tylko w trybie wsadowym. Oczywiście nie zauważysz tego ograniczenia, jeśli nie zaktualizujesz klasyfikatora, ale wtedy spodziewam się spadku rozdzielczości.

Jest to istotne, ponieważ na przykład w przypadku Perceptronów wielowarstwowych, po ich przeszkoleniu, może zacząć klasyfikować dane; dane te mogą być również wykorzystane do „dostrojenia” już wyszkolonego klasyfikatora, chociaż w drzewach decyzyjnych należy przekwalifikować cały zestaw danych (oryginalne dane wykorzystane w szkoleniu plus wszelkie nowe instancje).


Słaba rozdzielczość danych ze złożonymi relacjami między zmiennymi

Drzewa decyzyjne klasyfikuje się poprzez stopniową ocenę punktu danych nieznanej klasy, pojedynczego węzła na raz, zaczynając od węzła głównego i kończąc na węźle końcowym. I w każdym węźle możliwe są tylko dwie możliwości (lewo-prawo), stąd istnieją pewne zmienne relacje, których drzewa decyzyjne po prostu nie mogą się nauczyć.


Praktycznie ograniczony do klasyfikacji

Drzewa decyzyjne działają najlepiej, gdy zostaną przeszkolone w zakresie przypisywania punktu danych do klasy - najlepiej jednej z niewielu możliwych klas. Nie sądzę, że kiedykolwiek miałem jakikolwiek sukces przy użyciu drzewa decyzyjnego w trybie regresji (tj. Ciągłej produkcji, takiej jak cena lub oczekiwany przychód w całym okresie życia). Nie jest to ograniczenie formalne ani nieodłączne, ale praktyczne. Przez większość czasu drzewa decyzyjne są wykorzystywane do przewidywania czynników lub dyskretnych wyników.


Niska rozdzielczość przy zmiennych ciągłych oczekiwaniach

Ponownie, w zasadzie, dobrze jest mieć niezależne zmienne, takie jak „czas pobierania” lub „liczba dni od poprzedniego zakupu online” - wystarczy zmienić kryterium podziału na wariancję (zwykle jest to Entropia informacji lub Gini Impurity dla zmiennych dyskretnych), ale w moim doświadczenie Drzewa decyzyjne rzadko działają dobrze w takich przypadkach. Wyjątkiem są przypadki takie jak „wiek studenta”, który wygląda na ciągły, ale w praktyce zakres wartości jest dość mały (szczególnie jeśli są one zgłaszane jako liczby całkowite).

doug
źródło
1
+1 za dobre sprawdzenie pod kątem wydajności, co zwykle nie zapewnia wystarczającej gry. Widziałem, że w drzewach decyzyjnych występują problemy z wydajnością na kilku platformach programowych zaprojektowanych dla dużych zestawów danych (takich jak SQL Server), przynajmniej w porównaniu z innymi metodami eksploracji danych. Jest to oprócz całego poruszonego przez ciebie problemu przekwalifikowania. Wydaje się, że pogarsza się w przypadkach, w których dochodzi do przeuczenia (chociaż można to powiedzieć o wielu innych algorytmach górniczych).
SQLServerSteve
10

Są tutaj dobre odpowiedzi, ale jestem zaskoczony, że nie podkreślono jednej rzeczy. CART nie przyjmuje żadnych dystrybucyjnych założeń dotyczących danych, w szczególności zmiennej odpowiedzi. W przeciwieństwie do tego, OLS regresji (na ciągłych reakcji) i regresji logistycznej (niektóre kategoryjnych zmiennych odpowiedzi), na przykład, nie wprowadzać silny założeń; w szczególności regresja OLS zakłada, że ​​odpowiedź jest warunkowo normalnie rozłożona, a logistyka zakłada, że ​​odpowiedź jest dwumianowa lub wielomianowa.

Brak takich założeń CARTa jest mieczem obosiecznym. Gdy te założenia nie są uzasadnione, daje to podejście względną przewagę. Z drugiej strony, gdy te założenia się utrzymują, z danych można uzyskać więcej informacji, uwzględniając te fakty. Oznacza to, że standardowe metody regresji mogą być bardziej informacyjne niż CART, gdy założenia są prawdziwe.

gung - Przywróć Monikę
źródło