Mam dane równoważne z:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Chciałbym przeprowadzić analizę tego zestawu danych, aby uzyskać macierz korelacji, która miałaby implikację podobną do: jeśli kupiłeś x, prawdopodobnie kupisz y.
Używając Pythona (a może cokolwiek innego niż MATLAB), jak mogę to zrobić? Pomogą w tym niektóre podstawowe wytyczne lub wskazówki, gdzie powinienem szukać.
Dziękuję Ci,
Edycja - czego się nauczyłem:
Tego rodzaju problemy nazywane są wykrywaniem reguł asocjacyjnych. Wikipedia ma dobry artykuł opisujący niektóre z popularnych algorytmów. Klasycznym algorytmem do tego wydaje się być Apriori, ponieważ Agrawal i in. glin.
Doprowadziło mnie to do pomarańczowego , pakietu eksploracji danych z interfejsem Pythona. W przypadku Linuksa najlepszym sposobem instalacji wydaje się być źródło ze dostarczonego pliku setup.py
Domyślnie pomarańczowy odczytuje dane wejściowe z plików, sformatowane na jeden z kilku obsługiwanych sposobów.
Wreszcie, prosta nauka reguł stowarzyszenia Apriori jest prosta w kolorze pomarańczowym.
źródło
arules
byłbyś wart spojrzenia. Może „reguły stowarzyszenia” to dobry termin wyszukiwaniaOdpowiedzi:
Oprócz linków podanych w komentarzach, oto kilka dalszych wskazówek:
Jeśli chodzi o Python, myślę, że teraz masz pojęcie, czego powinieneś szukać, ale pakiet do eksploracji danych Orange zawiera pakiet reguł stowarzyszenia i zestawów przedmiotów (chociaż w przypadku tego ostatniego nie mogę znaleźć żadnych odniesień na stronie internetowej).
Edytować:
Ostatnio natknąłem się na pysuggest, który jest
źródło