Jak wybiera się punkt podziału dla zmiennych ciągłych w drzewach decyzyjnych?

15

Mam dwa pytania dotyczące drzew decyzyjnych:

  1. Jeśli mamy ciągły atrybut, jak wybrać wartość podziału?

    Przykład: Wiek = (20,29,50,40 ....)

  2. Wyobrazić, że mają ciągłą atrybutu , które mają wartości R . Jak napisać algorytm, który znajdzie punkt podziału v , aby po podzieleniu f przez v uzyskaliśmy minimalne wzmocnienie dla f > v ?fRvfvf>v

WALID BELRHALMIA
źródło

Odpowiedzi:

18

(20,29,40,50)(24.5,34.5,45)

Możesz zaoszczędzić trochę czasu na obliczeniach, sprawdzając tylko punkty podziału leżące między przykładami różnych klas, ponieważ tylko te podziały mogą być optymalne dla uzyskania informacji.

wykres czasu
źródło
@ timleathart OP oczekuje, że zostanie „nakarmiony” implementacją w R. Zastanawiam się, co OP próbował do tej pory w odniesieniu do implementacji R. A może „pokazać trochę wysiłku”, OP?
mnm
@ timleathart, ale zwykle dla atrybutu f wybieramy podział v, który daje największy przyrost informacji dla f> v, ale tutaj spójrz na pytanie, które zadali dla minimalnego wzmocnienia.
WALID BELRHALMIA
@timleathart, Czy możesz wyjaśnić więcej? Muszę znać najlepiej zoptymalizowany sposób identyfikowania takich podziałów i sprawdzania, czy uzyskano informacje. Powiedzmy, że jedna zmienna ma wiele odmian, a druga jest prawie stała. Ile takich podziałów powinno tam być?
Arpit Sisodia
@timeleathart, rozszerzając twoją odpowiedź, ten podział nie zostanie zoptymalizowany, gdy wartości będą wynosić (20,21,22,23, 45,67,80). czy nie należy tutaj stosować iteracji od min do max? Proszę mnie poprawić, jeśli się mylę w założeniu :)
Arpit Sisodia
To wyjaśnia moje zamieszanie!
Jinhua Wang