Jak przeprowadzić wielowymiarowe uczenie maszynowe? (przewidywanie wielu zmiennych zależnych)

9

Chcę przewidzieć grupy przedmiotów, które ktoś kupi ... tzn. Mam wiele zmiennych zależnych od linii.

Zamiast budować około 7 niezależnych modeli w celu przewidzenia prawdopodobieństwa, że ​​ktoś kupi każdy z 7 przedmiotów, a następnie łącząc wyniki, jakie metody powinienem sprawdzić, aby mieć jeden model uwzględniający relacje między 7 powiązanymi zmiennymi zależnymi ( rzeczy, które mogą kupić).

Używam R jako języka programowania, więc każda konkretna rada jest mile widziana.

podmuch00
źródło

Odpowiedzi:

7

Na podstawie twojego opisu wydaje się, że wielomianowa regresja logistyczna jest właściwa. Zakładając, że wynik jest czynnikiem z 7 poziomów (jedna z opcji zakupowych 7), a następnie można szybko przewidzieć członkostwa za pomocą wielomianu model regresji logistycznej (patrz ?multinomna nnetopakowaniu w R). Jeśli wyniku nie można połączyć w czynnik z 7 poziomami, konieczna będzie analiza skupień w celu zgrupowania elementów przed dopasowaniem wielomianowej regresji logistycznej.

statsRus
źródło
To nie jest regresja wielomianowa. Mam 7 różnych produktów, każdy produkt ma do 4 czynników .... są truskawki i rodzaje truskawek, a następnie mleko i różne rodzaje mleka oraz jabłka i różne rodzaje jabłek, i muszę przewidzieć prawidłowe wózek na zakupy ... więc zielone jabłka z truskawkami hodowlanymi, z 2% mleka itp.,
wybuch 00
1
Mam twoje rozwiązanie! Poleciłbym analizę polimorficzną utajonej klasy, w której wynikiem jest zestaw czynników, które zakłada się, że grupują się w jedną lub więcej utajonych klas. Członkostwo w tych klasach przewiduje się na podstawie wielomianowej regresji logistycznej. Zobacz ?poLCAw R, aby uzyskać więcej informacji na temat montażu tego modelu.
statystyki Rus
Czytam przez to - dziękuję statystyki Rus. Muszą być jednak inne sposoby.
blast00,
W szczególności metody uczenia maszynowego, ponieważ nie muszę dopasowywać rozkładu prawdopodobieństwa / jestem w porządku z modelem z czarną skrzynką
blast00 20.04.2014
Należy pamiętać, że wiele modeli statystycznych to w rzeczywistości nienadzorowane modele uczenia maszynowego - ale masz rację, zwykle dbamy o dane wejściowe z tych modeli. W przypadku nadzorowanego uczenia maszynowego z wieloma danymi wejściowymi i wynikami (oraz jakością czarnej skrzynki) sugerowałbym sieci neuronowe ( ?nnetw języku R).
statystyki Rus
5

Możesz zbudować losowy las, w którym każda twoja klasa jest grupą przedmiotów (np. „Zielone jabłka z truskawkami hodowlanymi, z 2% mleka”). Następnie, w oparciu o cechy kupującego lub jakiekolwiek predyktory, możesz podać przewidywane prawdopodobieństwo zakupu dla każdej grupy produktów. Użyłbym do tego losowego pakietu R. ( https://cran.r-project.org/web/packages/randomForest/index.html ).

LindsayL
źródło
3

Jedną z opcji jest uzyskanie częstotliwości wszystkich kombinacji zakupów produktu; wybierz kilka najczęstszych kombinacji; następnie zbuduj model regresji, aby przewidzieć wybraną kombinację każdej osoby. Na przykład za pomocą binarnej regresji logistycznej można prawdopodobnie przewidzieć zakup: a) białego wina, brie, truskawek i winogron vs. b) czerwonego wina, cheddaru i goudy. Przy więcej niż 2 takich kombinacjach lub jeśli chcesz uwzględnić kategorię „żadna z powyższych”, wielomianowa regresja logistyczna byłaby prawdopodobnie najlepszą metodą.

Pamiętaj, że włączenie tylko zwykłych kombinacji oznacza, że ​​będziesz mieć więcej wykonalnych liczb dla każdego z nich, ale będziesz wykluczał inne, przynajmniej z tej procedury. Mogłem sobie wyobrazić 7 przedmiotów tworzących dziesiątki kombinacji, każda wybrana przez co najmniej kilka osób. Jest to prawdopodobnie zbyt wiele kategorii dla twojej próbki. Co więcej, jeśli tylko kilka osób wybierze kombinację, twój model będzie miał bardzo mało informacji do pracy.

Inną opcją jest użycie analizy skupień, aby dojść do kilku zestawów przedmiotów, które zwykle kupuje się razem. Z 7 przedmiotami prawdopodobnie skończysz z mniej niż 4 klastrami, co może ułatwić zadanie. Jeśli spróbujesz przeprowadzić analizę skupień i okaże się, że wyniki są niewykonalne, nie ma powodu, aby z nich korzystać: po prostu wróć do opisanego powyżej podejścia opartego na częstotliwości. W tym przypadku, jeśli dobrze cię przeczytam, szukasz najbardziej opisowego i interesującego szeregu kategorii, a ustalając to, nie musisz się martwić stopniami swobody lub wielokrotnymi porównaniami lub wszelkimi takimi obawami, które mogą mieć zastosowanie jeśli wypróbowałeś wiele metod w przeprowadzeniu testu wnioskowania.

rolando2
źródło
Dziękuję za tę sugestię. Jednak muszą istnieć wielowymiarowe metody uczenia maszynowego. Podobny do tego, w jaki sposób możesz mieć 2 zmienne zależne w „łatwiejszym” modelu regresji .. i po prostu wykonujesz lm (y + z ~ ...) .. Myślę, że ...
blast00
0

Zakładam, że chcesz przeanalizować sytuację podobną do poniższej;

Yi = f (X), gdzie f () jest linkiem nieliniowym, a X jest wektorem zmiennych towarzyszących, a Yi jest i-tą zmienną zależną, która ma charakter porządkowy (jeśli jest kategoryczny, Yi nie może mieć więcej niż dwa kategorie), i powiedzmy w swoim modelu i = 1, 2, ... 5, a każda z Yi jest skorelowana ... Jeśli tak, z pewnością możesz zastosować Multitariate Probit. R, Mplus i SAS mogą oszacować MVP

W przeciwieństwie do tego masz Y = f (X), a Y (zauważ, że jest tylko jedno Y) jest kategoryczne i na przykład ma N kategorii, dzięki czemu wybory dokonane w stosunku do N kategorii są wyłączne i wyczerpujące; musisz dopasować model Multinomial Logit. Istnieje również coś o nazwie proba wielomianowa, podobnie jak Logit wielomianowy.

Mam nadzieję że to pomoże. Dzięki Sanjoy

Sanjoy Bhattacharjee
źródło