Jeśli chodzi o analizę koszyka, uważam, że głównym celem jest zindywidualizowanie najczęstszych kombinacji produktów kupowanych przez klientów. association rules
Reprezentują najbardziej naturalne metody tutaj (w rzeczywistości były one właściwie opracowane do tego celu). Analiza kombinacji produktów zakupionych przez klientów oraz liczba powtórzeń tych kombinacji prowadzi do reguły typu „jeśli warunek, a następnie wynik” z odpowiednim pomiarem ciekawości. Możesz również rozważyć Log-linear models
w celu zbadania powiązań między rozważanymi zmiennymi.
Jeśli chodzi o tworzenie klastrów, oto kilka informacji, które mogą się przydać:
Na początku zastanów się Variable clustering
. Grupowanie zmiennych służy do oceny kolinearności, redundancji oraz do dzielenia zmiennych na klastry, które można ocenić jako pojedynczą zmienną, co powoduje zmniejszenie danych. Poszukaj varclus
funkcji (pakiet Hmisc w R)
Ocena stabilności klastra: funkcja clusterboot
{pakiet R Rpc}
Statystyka oparta na odległości do sprawdzania poprawności klastra: funkcja cluster.stats
{pakiet R Rpc}
Jak wspomniano w mbq, użyj szerokości sylwetki do oceny najlepszej liczby klastrów. Zobacz to . Jeśli chodzi o szerokości sylwetki, zobacz także funkcję optsil .
Oszacuj liczbę klastrów w zbiorze danych za pomocą statystyki luki
Aby obliczyć wskaźniki niepodobności i miary odległości, zobacz dsvdis i vegdist
Algorytm klastrowania EM może decydować o tym, ile klastrów ma zostać utworzonych metodą krzyżowej weryfikacji (jeśli nie można określić apriori, ile klastrów ma zostać wygenerowanych). Chociaż algorytm EM ma gwarantowane zbiegnięcie się do maksimum, jest to maksimum lokalne i niekoniecznie musi być takie samo jak maksimum globalne. Aby zwiększyć szansę na uzyskanie globalnego maksimum, całą procedurę należy powtórzyć kilka razy, z różnymi wstępnymi domysłami dla wartości parametrów. Ogólną liczbę logarytmów prawdopodobieństwa można wykorzystać do porównania różnych uzyskanych konfiguracji końcowych: wystarczy wybrać największą z lokalnych maksimów . Implementację klastra EM można znaleźć w projekcie WEKA typu open source
To także ciekawy link.
Szukaj również tutaj dlaFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Wreszcie możesz zbadać wyniki grupowania za pomocą klastra