Czy drzewa CART wychwytują interakcje między predyktorami?

9

Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę.

Jednak wiele bardzo poważnych odniesień twierdzi, wręcz przeciwnie, że hierarchiczna struktura drzewa gwarantuje, że interakcje między predyktorami są automatycznie modelowane (np. Ten artykuł i oczywiście Hastie).

Kto ma rację Czy drzewa wyhodowane w CART wychwytują interakcje między zmiennymi wejściowymi?

Antoine
źródło
Wada argumentu polega na tym, że podziały są dokonywane na podzbiorach zmiennych towarzyszących zdefiniowanych przez podziały wykonane wcześniej.
@mbq, więc nowe podziały są warunkowe w stosunku do poprzednich podziałów ... Rozumiem ... Wydaje mi się, że miałem problem ze zrozumieniem, że „uwarunkowane wcześniejszym podziałem dokonanym na danym predyktorze” było równoważne z „interakcją z tym predyktorem” „...
Antoine,

Odpowiedzi:

12

KOSZYK może przechwytywać efekty interakcji. Efekt interakcji międzyX1 i X2 występuje, gdy efekt zmiennej objaśniającej X1 na zmienną odpowiedzi Y zależy od poziomu X2. Dzieje się tak w następującym przykładzie:

wprowadź opis zdjęcia tutaj

Wpływ złych warunków ekonomicznych (nazwij to X1) zależy od rodzaju kupowanego budynku (X2). Inwestując w budynek biurowy, złe warunki ekonomiczne zmniejszają przewidywaną wartość inwestycji o 140 000 dolarów. Ale inwestując w budynek mieszkalny, przewidywana wartość inwestycji spada o 20 000 dolarów. Wpływ złych warunków ekonomicznych na przewidywaną wartość inwestycji zależy od rodzaju kupowanej nieruchomości. To jest efekt interakcji.

TrynnaDoStat
źródło
3

Krótka odpowiedź

KOSZYK potrzebują pomocy w przechwytywaniu interakcji.

Długa odpowiedź

Weź dokładny chciwy algorytm (Chen i Guestrin, 2016):

Dokładny chciwy algorytm

Średnia na liściu będzie warunkowym oczekiwaniem, ale każdy podział w drodze do liścia jest niezależny od drugiego. Jeśli Cecha A nie ma znaczenia sama w sobie, ale ma znaczenie w interakcji z Cechą B, algorytm nie podzieli się na Cechę A. Bez tego podziału algorytm nie może przewidzieć podziału na Cechę B, niezbędnego do wygenerowania interakcji.

Drzewa mogą wybierać interakcje w najprostszych scenariuszach. Jeśli masz zestaw danych z dwiema funkcjamix1,x2 i cel y=XOR(x1,x2), algorytm nie ma nic do podzielenia się, ale x1 i x2, więc dostaniesz cztery liście z XOR oszacowane poprawnie.

Z wieloma funkcjami, regularyzacją i twardym ograniczeniem liczby podziałów ten sam algorytm może pomijać interakcje.

Obejścia

Wyraźne interakcje jako nowe funkcje

Przykład z Zhang („Winning Data Science Competition”, 2015):

Zhang o interakcjach

Nie chciwe algorytmy drzewiaste

W drugim pytaniu Simone sugeruje algorytmy oparte na spojrzeniu i ukośne drzewa decyzyjne .

Inne podejście do uczenia się

Niektóre metody uczenia się lepiej radzą sobie z interakcjami.

Oto tabela z elementów uczenia statystycznego (wiersz „Zdolność do wyodrębnienia liniowych kombinacji cech”):

Porównanie metod uczenia się

Anton Tarasenko
źródło