Jestem nowy w analizie sekwencji i zastanawiałem się, jak zareagujesz, jeśli średnie szerokości sylwetki (ASW) z analiz klastrowych macierzy niepodobności opartych na dopasowaniu optymalnym są niskie (około 25). Czy właściwe byłoby stwierdzenie, że istnieje niewielka podstawowa struktura, która pozwalałaby na grupowanie sekwencji? Czy możesz zignorować niskie ASW w oparciu o inne miary jakości klastra (wkleiłem niektóre poniżej)? Czy jest prawdopodobne, że wybory dokonane podczas analizy sekwencji lub późniejszych analiz klastrów mogą być odpowiedzialne za niskie liczby ASW?
Wszelkie sugestie będą mile widziane. Dzięki.
W przypadku, gdy potrzebny jest większy kontekst:
Badam 624 sekwencje niedopasowań godzin pracy (tj. Niedopasowania między liczbą godzin, które dana osoba woli pracować w ciągu tygodnia, a liczbą godzin, w których faktycznie pracują) wśród osób w wieku 20 lat. Wszystkie sekwencje, które badam, mają długość 10. Mój obiekt sekwencji ma pięć stanów (M = chce więcej godzin, S = chce takich samych godzin, F = chce mniej godzin, O = brak siły roboczej, a U = bezrobotny ).
Nie przeprowadziłem systematycznego rozliczania różnic między wynikami ASW dla różnych kombinacji podejść. Mimo to próbowałem niskich i średnich kosztów indela (.1 i .6 maksymalnego kosztu substytucji - bardziej zależy mi na kolejności zdarzeń niż na ich czasie) i różnych procedurach grupowania (totem, średnia i pam). Moje ogólne wrażenie jest takie, że liczby ASW pozostają niskie.
Być może niskie wyniki ASW mają sens. Spodziewałbym się, że te stany będą miały różne porządki, i można je powtarzać. Usunięcie duplikatów obserwacji obniża tylko N z 624 do 536. Badanie danych ujawnia, że istnieje naprawdę duża różnorodność i sekwencje, które uważałbym za bardzo różne, np. Ludzie, którzy cały czas chcieli mieć te same godziny, opracowali niedopasowanie, rozwiązali niedopasowanie i oscylowało w tę iz powrotem między posiadaniem i brakiem niedopasowania. Być może brak wyraźnie zróżnicowanych klastrów to nie to samo, co brak interesujących odmian. Mimo to słabe wyniki klastrów wydają się pozostawić mnie bez dobrego sposobu na podsumowanie sekwencji.
Wyniki metody Warda z indelem ustawionym na .1 kosztu podstawienia 2 Statystyki te wydają się sugerować, że rozwiązanie 6 klastrowe może być dobre. ASW jest jednak niski - przynajmniej dla rozwiązań, które mają rozsądną liczbę klastrów (2 lub 3 to za mało).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08
źródło