Mamy więc potencjał aplikacji do uczenia maszynowego, która dość dobrze wpasowuje się w tradycyjną domenę problemową rozwiązaną przez klasyfikatorów, tj. Mamy zestaw atrybutów opisujących przedmiot i „wiadro”, w którym się kończą. Zamiast tworzyć modele prawdopodobieństw, takich jak w Naive Bayes lub podobnych klasyfikatorach, chcemy, aby nasze dane wyjściowe były zbiorem reguł w przybliżeniu czytelnych dla człowieka, które mogą być przeglądane i modyfikowane przez użytkownika końcowego.
Uczenie się reguł asocjacyjnych wygląda jak rodzina algorytmów, które rozwiązują ten typ problemu, ale wydaje się, że algorytmy te koncentrują się na identyfikowaniu typowych kombinacji cech i nie obejmują koncepcji ostatecznego segmentu, na który te cechy mogą wskazywać. Na przykład nasz zestaw danych wygląda mniej więcej tak:
Item A { 4-door, small, steel } => { sedan }
Item B { 2-door, big, steel } => { truck }
Item C { 2-door, small, steel } => { coupe }
Chcę tylko zasad, które mówią „jeśli jest duży i 2-drzwiowy, to ciężarówka”, a nie zasad, które mówią „jeśli to 4-drzwiowe, to także małe”.
Jednym z obejść, które mogę wymyślić, jest po prostu użycie algorytmów uczenia się reguł asocjacyjnych i zignorowanie reguł, które nie obejmują segmentu końcowego, ale wydaje się to nieco pospolite. Czy przegapiłem jakąś rodzinę algorytmów? A może na początek podchodzę do problemu nieprawidłowo?
źródło
To jest nawet jeszcze prostsze, z tego, co opisujesz --- szukasz podstawowego algorytmu drzewa klasyfikacji (więc nie potrzebujesz nieco bardziej złożonych wariantów, takich jak C4.5, które są zoptymalizowane pod kątem dokładności prognozowania). Tekst kanoniczny to:
http://www.amazon.com/Classification-Regression-Wadsworth-Statistics-Probability/dp/0412048418
Jest to łatwo zaimplementowane w R:
http://cran.r-project.org/web/packages/tree/tree.pdf
i Python:
http://scikit-learn.org/stable/modules/tree.html
źródło
Możesz rzucić okiem na ucznia reguł CN2 w Orange 2 http://orange.biolab.si/orange2/
źródło
Powinieneś wypróbować pakiet arules w R. Pozwala on tworzyć nie tylko reguły asocjacji, ale także określać długość każdej reguły, ważność każdej reguły, a także możesz je filtrować, czyli tego, czego szukasz (wypróbuj komenda rhs () tego pakietu).
źródło