Czy ktoś może wyjaśnić podstawowe różnice między drzewami wnioskowania warunkowego ( ctree
z party
pakietu w R) w porównaniu do bardziej tradycyjnych algorytmów drzewa decyzyjnego (takich jak rpart
w R)?
- Co wyróżnia drzewa CI?
- Mocne i słabe strony?
Aktualizacja: Przejrzałem artykuł Horthorna i wsp., Do którego Chi odwołuje się w komentarzach. Nie byłem w stanie podążać za tym całkowicie - czy ktoś może wyjaśnić, w jaki sposób zmienne są wybierane za pomocą permutacji (np. Jaka jest funkcja wpływu)?
Dzięki!
r
machine-learning
cart
B_Miner
źródło
źródło
Odpowiedzi:
Tyle ile jest warte:
zarówno
rpart
ictree
rekurencyjnie wykonują jednoczynnikowe podziały zmiennej zależnej na podstawie wartości na zestawie zmiennych towarzyszących.rpart
i pokrewne algorytmy zwykle wykorzystują miary informacyjne (takie jak współczynnik Giniego ) do wybierania bieżącej współzmiennej.ctree
, według jego autorów (patrz komentarze chl ) unika następującej tendencyjności wyboru zmiennychrpart
(i powiązanych metod): Zazwyczaj wybierają zmienne, które mają wiele możliwych podziałów lub wiele brakujących wartości. W przeciwieństwie do innych,ctree
stosuje procedurę testu istotności w celu wybrania zmiennych zamiast wybierania zmiennej, która maksymalizuje miarę informacyjną (np. Współczynnik Giniego).Test istotności, lub lepiej: wielokrotne testy istotności obliczane na każdym początku algorytmu (wybierz zmienną towarzyszącą - wybierz podział - rekurencja) są testami permutacyjnymi , to znaczy „rozkład statystyki testu w ramach hipotezy zerowej uzyskuje się przez obliczenie wszystkie możliwe wartości statystyki testu przy przegrupowaniu etykiet na obserwowanych punktach danych. ” (z artykułu na Wikipedii).
Teraz statystyka testowa: jest obliczana z transformacji (w tym tożsamości, to znaczy bez transformacji) zmiennej zależnej i zmiennych towarzyszących. Możesz wybrać dowolną liczbę transformacji dla obu zmiennych. W przypadku DV (zmienna zależna) transformacja nazywana jest funkcją wpływu, o którą pytałeś.
Przykłady (zaczerpnięte z pracy ):
mały przykład testu permutacji w
R
:Załóżmy teraz, że masz zestaw zmiennych towarzyszących, a nie tylko jeden jak wyżej. Następnie oblicz wartości p dla każdej z zmiennych towarzyszących, jak na powyższym schemacie, i wybierz tę o najmniejszej wartości p . Chcesz obliczyć wartości p zamiast korelacji bezpośrednio, ponieważ możesz mieć różne zmienne towarzyszące (np. Liczbowe i kategoryczne).
Po wybraniu współzmiennych, teraz eksploruj wszystkie możliwe podziały (lub często jakoś ograniczoną liczbę wszystkich możliwych podziałów, np. Wymagając minimalnej liczby elementów DV przed podziałem) ponownie oceniając test oparty na permutacji.
ctree
zawiera szereg możliwych transformacji zarówno dla DV, jak i dla zmiennych towarzyszących (patrz pomocTransformations
wparty
pakiecie).więc generalnie główna różnica wydaje się polegać na tym, że
ctree
stosuje schemat selekcji współzmiennej oparty na teorii statystycznej (tj. selekcji za pomocą testów istotności opartych na permutacji), a tym samym pozwala uniknąć potencjalnego błędu, wrpart
przeciwnym razie wydają się podobne; np. drzewa wnioskowania warunkowego mogą być używane jako podstawowe osoby uczące się w losowych lasach.To jest tak daleko, jak tylko mogę. Aby uzyskać więcej informacji, naprawdę musisz przeczytać gazety. Pamiętaj, że zdecydowanie zalecamy, abyś naprawdę wiedział, co robisz, gdy chcesz zastosować jakąkolwiek analizę statystyczną.
źródło