Jaka jest praktyczna różnica między regułami asocjacji a drzewami decyzyjnymi w eksploracji danych?

19

Czy istnieje naprawdę prosty opis praktycznych różnic między tymi dwiema technikami?

Oba wydają się być używane do nadzorowanego uczenia się (chociaż reguły stowarzyszenia mogą również obsługiwać bez nadzoru).
Oba można wykorzystać do przewidywania

Znalazłem najbliżej „dobrego” opisu z podręcznika Statsoft . Mówią, że Reguły stowarzyszenia są używane do:

... wykrywają relacje lub powiązania między konkretnymi wartościami zmiennych jakościowych w dużych zestawach danych.

Podczas gdy klasyfikatory drzewa decyzyjnego są opisane jako używane do:

... przewidzieć przynależność przypadków lub obiektów do klas jakościowo zależnej zmiennej na podstawie ich pomiarów na jednej lub więcej zmiennych predykcyjnych.

Jednak w R Data Mining podają przykład reguł asocjacyjnych używanych z polem docelowym .

Oba można więc wykorzystać do przewidywania członkostwa w grupach. Czy kluczową różnicą jest to, że drzewa decyzyjne mogą obsługiwać niekategoryzowane dane wejściowe, podczas gdy reguły asocjacyjne nie? Czy jest coś bardziej fundamentalnego? Jedna strona ( sqlserverdatamining.com ) mówi, że kluczową różnicą jest:

Reguły drzew decyzyjnych są oparte na zdobywaniu informacji, podczas gdy reguły asocjacji oparte są na popularności i / lub zaufaniu.

Więc (ewentualnie odpowiadając na moje pytanie) czy to oznacza, że reguły asocjacyjne są oceniane wyłącznie na podstawie tego, jak często pojawiają się w zbiorze danych (i jak często są „prawdziwe”), podczas gdy drzewa decyzyjne faktycznie próbują zminimalizować wariancję?

Jeśli ktokolwiek zna dobry opis, chętnie by mnie wskazał, to byłoby świetnie.

data-mining association-rules Tumbledown
źródło

14

$\mathcal{F} = {F_1 , \dots, F_m }$ $C$ $\mathcal{F}$ $C$ $F$

t_{1} = {{ja}_{1}, {ja}_{2)}} t_{2)} = {{ja}_{1}, {ja}_{3)}, {ja}_{4}, {ja}_{5}} t_{3)} = {{ja}_{2)}, {ja}_{3)}, {ja}_{4}, {ja}_{5}} ⋮ t_{n} = {{ja}_{2)}, {ja}_{3)}, {ja}_{4}, {ja}_{5}}

$t_1 = \{i_1,i_2 \} \\ t_2 = \{i_1, i_3, i_4, i_5 \} \\ t_3 = \{i_2, i_3, i_4, i_5 \} \\ \vdots \\ t_n = \{ i_2, i_3, i_4, i_5 \}$

{{ja}_{3)}, {ja}_{5}} \to {{ja}_{4}}

$\{ i_3, i_5 \} \rightarrow \{ i_4 \}$

Okazuje się, że możesz użyć analizy powiązań do niektórych konkretnych zadań klasyfikacyjnych, na przykład, gdy wszystkie twoje funkcje są kategoryczne. Musisz tylko widzieć elementy jako cechy, ale nie po to narodziła się analiza skojarzeń.

Simone
źródło

3

„Reguły asocjacji mają na celu znalezienie wszystkich reguł powyżej podanych progów obejmujących nakładające się podzbiory rekordów, podczas gdy drzewa decyzyjne znajdują regiony w przestrzeni, w których większość rekordów należy do tej samej klasy. Z drugiej strony drzewa decyzyjne mogą nie uwzględniać wielu reguł predykcyjnych znalezionych przez reguły asocjacji ponieważ sukcesywnie dzielą się na mniejsze podzbiory. Gdy reguła znaleziona w drzewie decyzyjnym nie jest znaleziona przez reguły asocjacji, dzieje się tak albo dlatego, że ograniczenie przycina przestrzeń wyszukiwania, albo dlatego, że wsparcie lub zaufanie są zbyt duże. ”
„Algorytmy reguł asocjacyjnych mogą być powolne, pomimo wielu optymalizacji zaproponowanych w literaturze, ponieważ działają one w przestrzeni kombinatorycznej, podczas gdy drzewa decyzyjne mogą być stosunkowo znacznie szybsze, ponieważ każdy podział uzyskuje kolejno mniejsze podzbiory rekordów”.
Inną kwestią jest to, że drzewa decyzyjne mogą powtarzać ten sam atrybut wiele razy dla tej samej reguły, ponieważ taki atrybut jest dobrym dyskryminatorem. Nie jest to duży problem, ponieważ reguły są spójnikami i dlatego regułę można uprościć do jednego przedziału dla atrybutu, ale taki przedział będzie na ogół niewielki, a reguła zbyt konkretna. ”

Fragmenty:

Ordonez, C., i Zhao, K. (2011). Ocena reguł asocjacji i drzew decyzyjnych w celu przewidzenia wielu atrybutów docelowych. Inteligentna analiza danych, 15 (2), 173–192.

Miły artykuł na ten temat, zdecydowanie wart przeczytania.

Roy van der Valk
źródło

2

Możemy argumentować, że zarówno reguły asocjacji, jak i drzewa decyzyjne sugerują użytkownikowi zestaw reguł, a zatem oba są podobne, ale musimy zrozumieć teoretyczną różnicę między drzewami decyzyjnymi a regułami asocjacji, a ponadto, w jaki sposób reguły sugerowane przez oba mają różne znaczenie lub w użyciu.

Po pierwsze, drzewo decyzyjne jest nadzorowanym podejściem, w którym algorytm próbuje przewidzieć „wynik”. Typowym przykładem „wyniku” w rzeczywistych sytuacjach może być np. Rezygnacja, oszustwo, reakcja na kampanię itp. Tak więc reguły drzewa decyzyjnego są wykorzystywane do przewidywania wyniku.

Uczenie się reguł asocjacyjnych to podejście bez nadzoru, w którym algorytm próbuje znaleźć powiązania między elementami, często w dużych komercyjnych bazach danych. Typowym przykładem dużej komercyjnej bazy danych jest transakcja zawierająca transakcje detalistów, takie jak historia zakupów klientów na stronie e-commerce. Przedmiotami mogą być produkty zakupione w sklepach lub filmy oglądane na internetowej platformie streamingowej. Uczenie się reguł asocjacyjnych polega na tym, jak zakup jednego produktu powoduje zakup innego produktu.

Po drugie, drzewa decyzyjne są konstruowane w oparciu o pewne miary zanieczyszczenia / niepewności, np. Przyrost informacji, współczynnik Giniego lub entropia, podczas gdy reguły asocjacji są wyprowadzane na podstawie wsparcia, zaufania i wzrostu.

Po trzecie, ponieważ drzewo decyzyjne jest podejściem „nadzorowanym”, jego dokładność jest mierzalna, podczas gdy uczenie się reguł asocjacyjnych jest podejściem „bez nadzoru”, a zatem jego dokładność jest subiektywna.

Jyotsna
źródło

Jaka jest praktyczna różnica między regułami asocjacji a drzewami decyzyjnymi w eksploracji danych?

Odpowiedzi: