Chcę przewidzieć grupy przedmiotów, które ktoś kupi ... tzn. Mam wiele zmiennych zależnych od linii.
Zamiast budować około 7 niezależnych modeli w celu przewidzenia prawdopodobieństwa, że ktoś kupi każdy z 7 przedmiotów, a następnie łącząc wyniki, jakie metody powinienem sprawdzić, aby mieć jeden model uwzględniający relacje między 7 powiązanymi zmiennymi zależnymi ( rzeczy, które mogą kupić).
Używam R jako języka programowania, więc każda konkretna rada jest mile widziana.
źródło
?poLCA
w R, aby uzyskać więcej informacji na temat montażu tego modelu.?nnet
w języku R).Możesz zbudować losowy las, w którym każda twoja klasa jest grupą przedmiotów (np. „Zielone jabłka z truskawkami hodowlanymi, z 2% mleka”). Następnie, w oparciu o cechy kupującego lub jakiekolwiek predyktory, możesz podać przewidywane prawdopodobieństwo zakupu dla każdej grupy produktów. Użyłbym do tego losowego pakietu R. ( https://cran.r-project.org/web/packages/randomForest/index.html ).
źródło
Jedną z opcji jest uzyskanie częstotliwości wszystkich kombinacji zakupów produktu; wybierz kilka najczęstszych kombinacji; następnie zbuduj model regresji, aby przewidzieć wybraną kombinację każdej osoby. Na przykład za pomocą binarnej regresji logistycznej można prawdopodobnie przewidzieć zakup: a) białego wina, brie, truskawek i winogron vs. b) czerwonego wina, cheddaru i goudy. Przy więcej niż 2 takich kombinacjach lub jeśli chcesz uwzględnić kategorię „żadna z powyższych”, wielomianowa regresja logistyczna byłaby prawdopodobnie najlepszą metodą.
Pamiętaj, że włączenie tylko zwykłych kombinacji oznacza, że będziesz mieć więcej wykonalnych liczb dla każdego z nich, ale będziesz wykluczał inne, przynajmniej z tej procedury. Mogłem sobie wyobrazić 7 przedmiotów tworzących dziesiątki kombinacji, każda wybrana przez co najmniej kilka osób. Jest to prawdopodobnie zbyt wiele kategorii dla twojej próbki. Co więcej, jeśli tylko kilka osób wybierze kombinację, twój model będzie miał bardzo mało informacji do pracy.
Inną opcją jest użycie analizy skupień, aby dojść do kilku zestawów przedmiotów, które zwykle kupuje się razem. Z 7 przedmiotami prawdopodobnie skończysz z mniej niż 4 klastrami, co może ułatwić zadanie. Jeśli spróbujesz przeprowadzić analizę skupień i okaże się, że wyniki są niewykonalne, nie ma powodu, aby z nich korzystać: po prostu wróć do opisanego powyżej podejścia opartego na częstotliwości. W tym przypadku, jeśli dobrze cię przeczytam, szukasz najbardziej opisowego i interesującego szeregu kategorii, a ustalając to, nie musisz się martwić stopniami swobody lub wielokrotnymi porównaniami lub wszelkimi takimi obawami, które mogą mieć zastosowanie jeśli wypróbowałeś wiele metod w przeprowadzeniu testu wnioskowania.
źródło
Zakładam, że chcesz przeanalizować sytuację podobną do poniższej;
Yi = f (X), gdzie f () jest linkiem nieliniowym, a X jest wektorem zmiennych towarzyszących, a Yi jest i-tą zmienną zależną, która ma charakter porządkowy (jeśli jest kategoryczny, Yi nie może mieć więcej niż dwa kategorie), i powiedzmy w swoim modelu i = 1, 2, ... 5, a każda z Yi jest skorelowana ... Jeśli tak, z pewnością możesz zastosować Multitariate Probit. R, Mplus i SAS mogą oszacować MVP
W przeciwieństwie do tego masz Y = f (X), a Y (zauważ, że jest tylko jedno Y) jest kategoryczne i na przykład ma N kategorii, dzięki czemu wybory dokonane w stosunku do N kategorii są wyłączne i wyczerpujące; musisz dopasować model Multinomial Logit. Istnieje również coś o nazwie proba wielomianowa, podobnie jak Logit wielomianowy.
Mam nadzieję że to pomoże. Dzięki Sanjoy
źródło