Znalezienie odpowiednich reguł dla nowych danych za pomocą arules


Używam R (i pakietu arules) do wyszukiwania transakcji dla reguł asocjacji. Chcę zbudować reguły, a następnie zastosować je do nowych danych.

Powiedzmy na przykład, że mam wiele zasad, z których jedną jest kanoniczna {Beer=YES} -> {Diapers=YES}.

Potem mam nowe dane transakcyjne, w których jeden z rekordów kupił piwo, ale nie pieluchy. Jak mogę zidentyfikować regułę, w której spełnia się LHS, ale jeszcze nie RHS?

Przykład R:


**#generate Rules omitting second record**

rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules"))

Generowane reguły to:

> inspect(rules)
  lhs                   rhs                   support confidence     lift
1 {}                 => {whole milk}       0.25554200  0.2555420 1.000000
2 {yogurt}           => {whole milk}       0.05603010  0.4018964 1.572722
3 {whole milk}       => {yogurt}           0.05603010  0.2192598 1.572722
4 {rolls/buns}       => {whole milk}       0.05664023  0.3079049 1.204909
5 {whole milk}       => {rolls/buns}       0.05664023  0.2216474 1.204909
6 {other vegetables} => {whole milk}       0.07484238  0.3867578 1.513480
7 {whole milk}       => {other vegetables} 0.07484238  0.2928770 1.513480

Druga transakcja pokazuje tego klienta, ponieważ ma on jogurt, ale nie pełne mleko, być może należy wysłać kupon na mleko. W jaki sposób można znaleźć wszelkie obowiązujące reguły w „regułach” dla nowych transakcji?

> LIST(Groceries[2])
[1] "tropical fruit" "yogurt"         "coffee" 



Kluczem jest funkcja is.subset w tym samym pakiecie

Oto kod ...

basket <- Groceries[2]
# find all rules, where the lhs is a subset of the current basket
rulesMatchLHS <- is.subset(rules@lhs,basket)
# and the rhs is NOT a subset of the current basket (so that some items are left as potential recommendation)
suitableRules <-  rulesMatchLHS & !(is.subset(rules@rhs,basket))

# here they are

# now extract the matching rhs ...
recommendations <- strsplit(LIST(rules[suitableRules]@rhs)[[1]],split=" ")
recommendations <- lapply(recommendations,function(x){paste(x,collapse=" ")})
recommendations <- as.character(recommendations)

# ... and remove all items which are already in the basket
recommendations <- recommendations[!sapply(recommendations,function(x){basket %in% x})]


i wygenerowany wynik ...

> inspect(rules[suitableRules])
  lhs         rhs            support confidence     lift
1 {}       => {whole milk} 0.2555420  0.2555420 1.000000
2 {yogurt} => {whole milk} 0.0560301  0.4018964 1.572722

> print(recommendations)
[1] "whole milk"
Steffen - fantastycznie! Dzięki bardzo, nie widziałem tej funkcji. Widziałem ten ranking według wzrostu (lub innej miary), aby ustalić, którą zasadę zachować, gdy kilka meczów byłoby dość łatwych.
Wiem, że to dość stare, ale mam nadzieję, że ktoś odpowie. Co jeśli chcę bezpośrednio umieścić basket <- "tropical fruit" "yogurt" "coffee"?
@HonzaB, myślę, że musisz rzucić go na odpowiedni typ, ala:as(list(basket), "itemMatrix")