Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę.
Jednak wiele bardzo poważnych odniesień twierdzi, wręcz przeciwnie, że hierarchiczna struktura drzewa gwarantuje, że interakcje między predyktorami są automatycznie modelowane (np. Ten artykuł i oczywiście Hastie).
Kto ma rację Czy drzewa wyhodowane w CART wychwytują interakcje między zmiennymi wejściowymi?
Odpowiedzi:
KOSZYK może przechwytywać efekty interakcji. Efekt interakcji międzyX1 i X2) występuje, gdy efekt zmiennej objaśniającej X1 na zmienną odpowiedzi Y zależy od poziomu X2) . Dzieje się tak w następującym przykładzie:
Wpływ złych warunków ekonomicznych (nazwij toX1 ) zależy od rodzaju kupowanego budynku (X2) ). Inwestując w budynek biurowy, złe warunki ekonomiczne zmniejszają przewidywaną wartość inwestycji o 140 000 dolarów. Ale inwestując w budynek mieszkalny, przewidywana wartość inwestycji spada o 20 000 dolarów. Wpływ złych warunków ekonomicznych na przewidywaną wartość inwestycji zależy od rodzaju kupowanej nieruchomości. To jest efekt interakcji.
źródło
Krótka odpowiedź
KOSZYK potrzebują pomocy w przechwytywaniu interakcji.
Długa odpowiedź
Weź dokładny chciwy algorytm (Chen i Guestrin, 2016):
Średnia na liściu będzie warunkowym oczekiwaniem, ale każdy podział w drodze do liścia jest niezależny od drugiego. Jeśli Cecha A nie ma znaczenia sama w sobie, ale ma znaczenie w interakcji z Cechą B, algorytm nie podzieli się na Cechę A. Bez tego podziału algorytm nie może przewidzieć podziału na Cechę B, niezbędnego do wygenerowania interakcji.
Drzewa mogą wybierać interakcje w najprostszych scenariuszach. Jeśli masz zestaw danych z dwiema funkcjamix1,x2) i cel y= XO R (x1,x2)) , algorytm nie ma nic do podzielenia się, ale x1 i x2) , więc dostaniesz cztery liście z XO R oszacowane poprawnie.
Z wieloma funkcjami, regularyzacją i twardym ograniczeniem liczby podziałów ten sam algorytm może pomijać interakcje.
Obejścia
Wyraźne interakcje jako nowe funkcje
Przykład z Zhang („Winning Data Science Competition”, 2015):
Nie chciwe algorytmy drzewiaste
W drugim pytaniu Simone sugeruje algorytmy oparte na spojrzeniu i ukośne drzewa decyzyjne .
Inne podejście do uczenia się
Niektóre metody uczenia się lepiej radzą sobie z interakcjami.
Oto tabela z elementów uczenia statystycznego (wiersz „Zdolność do wyodrębnienia liniowych kombinacji cech”):
źródło