Jak przeprowadzić analizę korelacji „piwa i pieluch”

8

Mam dane równoważne z:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Chciałbym przeprowadzić analizę tego zestawu danych, aby uzyskać macierz korelacji, która miałaby implikację podobną do: jeśli kupiłeś x, prawdopodobnie kupisz y.

Używając Pythona (a może cokolwiek innego niż MATLAB), jak mogę to zrobić? Pomogą w tym niektóre podstawowe wytyczne lub wskazówki, gdzie powinienem szukać.

Dziękuję Ci,

Edycja - czego się nauczyłem:

  1. Tego rodzaju problemy nazywane są wykrywaniem reguł asocjacyjnych. Wikipedia ma dobry artykuł opisujący niektóre z popularnych algorytmów. Klasycznym algorytmem do tego wydaje się być Apriori, ponieważ Agrawal i in. glin.

  2. Doprowadziło mnie to do pomarańczowego , pakietu eksploracji danych z interfejsem Pythona. W przypadku Linuksa najlepszym sposobem instalacji wydaje się być źródło ze dostarczonego pliku setup.py

  3. Domyślnie pomarańczowy odczytuje dane wejściowe z plików, sformatowane na jeden z kilku obsługiwanych sposobów.

  4. Wreszcie, prosta nauka reguł stowarzyszenia Apriori jest prosta w kolorze pomarańczowym.

Azarias R.
źródło
3
Gdybyś szukał pakietu R, arulesbyłbyś wart spojrzenia. Może „reguły stowarzyszenia” to dobry termin wyszukiwania
Karsten W.
2
Zobacz także algorytm Apriori dotyczący „standardowego” podejścia do tego problemu.
kardynał

Odpowiedzi:

7

Oprócz linków podanych w komentarzach, oto kilka dalszych wskazówek:

Jeśli chodzi o Python, myślę, że teraz masz pojęcie, czego powinieneś szukać, ale pakiet do eksploracji danych Orange zawiera pakiet reguł stowarzyszenia i zestawów przedmiotów (chociaż w przypadku tego ostatniego nie mogę znaleźć żadnych odniesień na stronie internetowej).

Edytować:

Ostatnio natknąłem się na pysuggest, który jest

silnik rekomendacji Top-N, który implementuje różne algorytmy rekomendacji. Systemy rekomendujące Top-N, spersonalizowana technologia filtrowania informacji, są używane do identyfikacji zestawu N elementów, które mogą zainteresować określonego użytkownika. W ostatnich latach topowe systemy rekomendujące były używane w wielu różnych aplikacjach, takich jak produkty, które klient najprawdopodobniej kupi; polecać filmy, programy telewizyjne lub muzykę, które użytkownik uzna za przyjemne; zidentyfikować strony internetowe, które będą interesujące; lub nawet sugerują alternatywne sposoby wyszukiwania informacji.

chl
źródło
Zastanawiam się, ile produktów trzeba zaangażować, zanim prosta matryca korelacji będzie niewystarczająca?
rolando2