Zgrupowałem mój zestaw danych kilku tysięcy łańcuchów Markowa pierwszego rzędu w około 10 klastrów.
Czy istnieje jakiś zalecany sposób, w jaki mogę ocenić te klastry i dowiedzieć się, jakie elementy mają te klastry i czym różnią się od innych klastrów? Mogę więc wypowiedzieć się w stylu: „Procesy w klastrze A mają tendencję do pozostania w stanie Y, kiedy się tam znajdą, co nie jest prawdą w przypadku procesów w innych klastrach”.
Macierze przejściowe tych łańcuchów Markowa są zbyt duże, by „tylko patrzeć i widzieć”. Są stosunkowo rzadkie, jeśli to może pomóc.
Mój pomysł polegał na zebraniu wszystkich macierzy przejścia w klastrze, zsumowaniu ich i wykreśleniu ich jako intensywności na zdjęciu (w skali od 0 do 255). Czy jest coś bardziej „profesjonalnego”, co powinienem wypróbować?
źródło
Odpowiedzi:
Aby wypowiedzieć się na temat zachowania w stanie ustalonym dla każdego skupienia, można obliczyć rozkłady stanu ustalonego dla każdej macierzy przejściowej według wektorów własnych, a następnie porównać wykresy pudełkowe według skupień. Prawdopodobnie wystąpią problemy z obliczaniem stanu ustalonego bez uprzedniego zastosowania pewnego rodzaju wygładzania.
Jak grupujesz macierze przejścia? Gdybym to był ja, zastosowałbym wygładzanie addytywne do każdego wiersza, następnie wyśrodkowałam transformację logarytmiczną każdego rzędu, a następnie spłaszczyłeś macierze.
Jeśli skupiasz się za pomocą środków typu K lub wariantu, możesz przeanalizować znormalizowane centra skupień. Lub po prostu wybierz kilka obserwacji z każdej grupy i przeanalizuj je.
źródło
Po pierwsze, aby uzyskać pomysł, czy macie macierze o wymiarach 105 x 105, odpowiadające zastosowanym przez Państwa aplikacjom? Kiedy mówisz „pozostań w stanie Y”, czy to oznacza trzymanie się aplikacji Y?
Następnie założyłbym, że wyniki takie jak „Procesy w klastrze A mają tendencję do pozostania w stanie Y, gdy już tam dotrą, co nie jest prawdą w przypadku procesów w innych klastrach”, są nieco zbyt drobnoziarniste przy zaledwie 10 klastrach. Czy próbowałeś klastrować domenę aplikacji - jeśli dobrze rozumiem, możesz zgrupować 105 aplikacji w oparciu o zachowanie użytkownika. Następnie, czy patrzyłeś na zwykłą obecność użytkowników, a nie na przejście, tj. Spojrzałeś na profile użytkowników w 105 aplikacjach? Brzmi, jakbyś mógł użyć współczynnika Pearsona między profilami użytkowników; albo w klastrach aplikacji, albo w samych aplikacjach. Być może można to rozszerzyć na przejścia między aplikacjami, ale obecnie uważam, że istnieje ogromne niedopasowanie między liczbą klastrów a rodzajem wyników, którymi jesteś zainteresowany.
źródło