Obecnie robię analizy na stronie internetowej, która wymaga, aby utworzyć diagram drzewa decyzyjnego pokazujący prawdopodobną trasę, którą ludzie wybiorą za każdym razem, gdy dotrą na stronę. Mam do czynienia z tym, data.frame
który pokazuje ścieżki wszystkich klientów do strony, zaczynając od strony głównej. Na przykład klient może wybrać następującą ścieżkę:
Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3
aby ten klient odbył 3-stronicową podróż. To, co chcę spróbować w R, to połączenie wszystkich ścieżek klientów, a tym samym przypisanie prawdopodobieństwa klientowi podążając określoną ścieżką w witrynie. Na przykład, gdybym zbadał wszystkie ścieżki, stwierdziłbym, że 34% osób, które pojawiają się na stronie głównej, przechodzi na stronę „Artykuły kuchenne”. Czy R ma tę funkcję?
Szukałem różnych metod w pakietach rpart i partykit , ale nie były one pomocne.
Jakiekolwiek kierowanie w tym kierunku jest bardzo mile widziane!
źródło
igraph
pakiet wydaje się być dość kompleksowy.Odpowiedzi:
Nie jest jednym ze sposobów na rozpoczęcie, jest macierz (powiedzmy M n × n ), gdzie n jest liczbą stron. Następnie na podstawie elementu macierzy przyrostu surowych danych M r c po jednym, gdy użytkownik przeskakuje ze strony r do strony c . To daje prawdopodobieństwo przejścia.n × n M.n × n n M.r c r do
Odpowiedź na twoje pierwsze pytanie brzmi: „Jaki procent użytkowników na stronie głównej (powiedzmy na stronie 1) podróżuje obok powiedzmy artykułów kuchennych (powiedzmy na stronie 2)?”
Czy to zbyt uproszczone?
źródło
Wygląda na to, że próbujesz odtworzyć algorytm PageRank Google. Większość algorytmu PageRank została opracowana przy użyciu łańcuchów Markowa. Wiele wzmianek o rozwijaniu metod PageRank można znaleźć w R.
igraph.sourceforge.net/doc/R/page.rank.htm
źródło
Z tego, co widzę tutaj, zgadzam się, że igraphs / Markov Chains jest prawdopodobnie dobrym rozwiązaniem, jednak zdecydowanie możesz użyć rpart i / lub partykit.
Trudno mi podać prostą odpowiedź na podstawie twojego ograniczonego przykładu, ale mogę ogólnie wyjaśnić, jak byś to zrobił.
Chcesz zobaczyć, gdzie byli wszyscy twoi użytkownicy, i podsumuj to na przykład w postaci ciągu
Następnie możesz podzielić użytkowników na kategorie, na przykład tych, którzy znaleźli się na stronie „kup teraz”, i tych, którzy tego nie zrobili. Następnie możesz po prostu zacząć przewidywać wynik końcowy. W tym przykładzie może dowiesz się, że ludzie, którzy zrobili najwięcej porównań, coś kupili / nie kupili.
Możesz także utworzyć więcej zmiennych, np. „Jaka była strona przed stroną buynow”, „ile stron odwiedzili przed zakupem” lub „kiedy utworzyli swoje pierwsze konto”, a te dane możesz dodać do swojej analizy.
Istnieje wiele różnych sposobów można przejść, a to zaczyna się odpowiedzieć na różne pytania, ale chodzi mi o to, że mogliśmy skorzystać z drzew, a dla niektórych problemów może być szybsza i prostsza droga do wglądu.
Nawiasem mówiąc, musiałbyś wprowadzić czynniki zmiennych nieliczbowych, używając
factor
lubas.factor
, jeśli zamierzasz użyć party. Impreza ma na początek fajne winiety.źródło