Wymienię niektóre nieruchomości, a następnie przedstawię moją ocenę tego, co jest warte:
- CHAID domyślnie używa podziału na wiele dróg (podziały na wiele sposobów oznaczają, że bieżący węzeł jest podzielony na więcej niż dwa węzły). Może to być lub nie być pożądane (może prowadzić do lepszych segmentów lub łatwiejszej interpretacji). To, co zdecydowanie robi, to jednak rozrzedzenie wielkości próby w węzłach, co prowadzi do mniej głębokich drzew. W przypadku użycia do celów segmentacji może się to odbić szybko, gdy CHAID potrzebuje dużych próbek do prawidłowego działania. CART domyślnie wykonuje podziały binarne (każdy węzeł jest podzielony na dwa węzły potomne).
- CHAID przeznaczony jest do pracy z celowymi / dyskretnymi celami (XAID dotyczył regresji, ale być może zostały połączone od tego czasu). KOSZYK zdecydowanie może przeprowadzić regresję i klasyfikację.
- CHAID stosuje pomysł przycinania . Węzeł jest dzielony tylko wtedy, gdy spełnione jest kryterium istotności. Jest to związane z powyższym problemem polegającym na potrzebie dużych rozmiarów próbek, ponieważ test Chi-Square ma tylko niewielką moc w małych próbkach (co skutecznie zmniejsza się jeszcze bardziej dzięki korekcji Bonferroniego w przypadku testów wielokrotnych). Z drugiej strony, CART wyrasta z dużego drzewa, a następnie przycina je z powrotem do mniejszej wersji.
- W ten sposób CHAID od samego początku stara się zapobiegać przeuczeniu (tylko podział jest znaczący, a CART może łatwo się przeregulować, chyba że drzewo zostanie ponownie przycięte). Z drugiej strony pozwala to CART działać lepiej niż CHAID w próbkach wejściowych i wyjściowych (dla danej kombinacji parametrów strojenia).
- Najważniejsza różnica moim zdaniem polega na tym, że wybór zmiennej podziału i wybór punktu podziału w CHAID jest mniej mocno zakłócany, jak w CART . Jest to w dużej mierze nieistotne, gdy drzewa są używane do przewidywania, ale jest ważnym zagadnieniem, gdy drzewa są używane do interpretacji: Drzewo, które ma te dwie części algorytmu bardzo skomplikowane, mówi się, że jest „stronnicze w wyborze zmiennych” (niefortunna nazwa) . Oznacza to, że wybór zmiennych podzielonych preferuje zmienne z wieloma możliwymi podziałami (np. Predyktory metryczne). W tym sensie KOSZYK jest wysoce „stronniczy”, a CHAID wcale nie.
- W przypadku podziałów zastępczych CART wie, jak radzić sobie z brakującymi wartościami (podziały zastępcze oznaczają, że w przypadku brakujących wartości (NA) dla zmiennych predykcyjnych algorytm wykorzystuje inne zmienne predykcyjne, które nie są tak „dobre” jak główna zmienna podziału, ale naśladują podziały wytworzone przez pierwotną wartość rozłupnik). CHAID nie ma czegoś takiego.
Dlatego w zależności od tego, czego potrzebujesz, sugeruję użycie CHAID, jeśli próbka jest pewnej wielkości, a aspekty interpretacji są ważniejsze. Ponadto, jeśli pożądane są podziały wielostronne lub mniejsze drzewa, CHAID jest lepszy. Z drugiej strony, CART jest dobrze działającą maszyną do przewidywania, więc jeśli przewidywanie jest twoim celem, wybrałbym CART.
Wszystkie metody z jednym drzewem wymagają oszałamiającej liczby wielu porównań, które powodują dużą niestabilność wyniku. Dlatego, aby osiągnąć zadowalającą dyskryminację predykcyjną, niezbędna jest jakaś forma uśredniania drzew (workowanie, wzmacnianie, losowe lasy) (z wyjątkiem utraty drzew przewagi - interpretowalność). Prostota pojedynczych drzew jest w dużej mierze iluzją. Są proste, ponieważ mylą się w tym sensie, że szkolenie drzewa do wielu dużych podzbiorów danych ujawni wielką niezgodę między strukturami drzew.
Nie spojrzałem na żadną niedawną metodologię CHAID, ale CHAID w swoim pierwotnym wcieleniu był świetnym ćwiczeniem w zakresie interpretacji danych.
źródło