Czy niskie szerokości sylwetki oznaczają, że dane mają niewielką strukturę?

10

Jestem nowy w analizie sekwencji i zastanawiałem się, jak zareagujesz, jeśli średnie szerokości sylwetki (ASW) z analiz klastrowych macierzy niepodobności opartych na dopasowaniu optymalnym są niskie (około 25). Czy właściwe byłoby stwierdzenie, że istnieje niewielka podstawowa struktura, która pozwalałaby na grupowanie sekwencji? Czy możesz zignorować niskie ASW w oparciu o inne miary jakości klastra (wkleiłem niektóre poniżej)? Czy jest prawdopodobne, że wybory dokonane podczas analizy sekwencji lub późniejszych analiz klastrów mogą być odpowiedzialne za niskie liczby ASW?

Wszelkie sugestie będą mile widziane. Dzięki.

W przypadku, gdy potrzebny jest większy kontekst:

Badam 624 sekwencje niedopasowań godzin pracy (tj. Niedopasowania między liczbą godzin, które dana osoba woli pracować w ciągu tygodnia, a liczbą godzin, w których faktycznie pracują) wśród osób w wieku 20 lat. Wszystkie sekwencje, które badam, mają długość 10. Mój obiekt sekwencji ma pięć stanów (M = chce więcej godzin, S = chce takich samych godzin, F = chce mniej godzin, O = brak siły roboczej, a U = bezrobotny ).

Nie przeprowadziłem systematycznego rozliczania różnic między wynikami ASW dla różnych kombinacji podejść. Mimo to próbowałem niskich i średnich kosztów indela (.1 i .6 maksymalnego kosztu substytucji - bardziej zależy mi na kolejności zdarzeń niż na ich czasie) i różnych procedurach grupowania (totem, średnia i pam). Moje ogólne wrażenie jest takie, że liczby ASW pozostają niskie.

Być może niskie wyniki ASW mają sens. Spodziewałbym się, że te stany będą miały różne porządki, i można je powtarzać. Usunięcie duplikatów obserwacji obniża tylko N z 624 do 536. Badanie danych ujawnia, że ​​istnieje naprawdę duża różnorodność i sekwencje, które uważałbym za bardzo różne, np. Ludzie, którzy cały czas chcieli mieć te same godziny, opracowali niedopasowanie, rozwiązali niedopasowanie i oscylowało w tę iz powrotem między posiadaniem i brakiem niedopasowania. Być może brak wyraźnie zróżnicowanych klastrów to nie to samo, co brak interesujących odmian. Mimo to słabe wyniki klastrów wydają się pozostawić mnie bez dobrego sposobu na podsumowanie sekwencji.

Wyniki metody Warda z indelem ustawionym na .1 kosztu podstawienia 2 Statystyki te wydają się sugerować, że rozwiązanie 6 klastrowe może być dobre. ASW jest jednak niski - przynajmniej dla rozwiązań, które mają rozsądną liczbę klastrów (2 lub 3 to za mało).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08
JeremyR
źródło

Odpowiedzi:

11

ASW jest miarą spójności rozwiązania klastrowego. Wysoka wartość ASW oznacza, że ​​klastry są jednorodne (wszystkie obserwacje znajdują się blisko środka klastra) i że są dobrze rozdzielone. Według Kaufmanna i Rousseuw (1990) wartość poniżej 0,25 oznacza, że ​​dane nie są ustrukturyzowane. Między 0,25 a 0,5 dane mogą być uporządkowane, ale może to być również sztuczka. Należy pamiętać, że wartości te mają charakter orientacyjny i nie powinny być stosowane jako próg decyzyjny. Wartości te nie są teoretycznie zdefiniowane (nie są oparte na pewnej wartości p), ale oparte są na doświadczeniu autorów. Dlatego zgodnie z tymi niskimi wartościami ASW dane wydają się być dość nieuporządkowane. Jeśli celem analizy skupień jest jedynie opisowa, możesz argumentować, że ujawnia ona niektóre (ale tylko niektóre) najbardziej znaczące wzorce. Jednak,

Możesz także spróbować przyjrzeć się wartościom ASW „na klaster” (podaje to funkcja wcClusterQuality). Może niektóre z twoich klastrów są dobrze zdefiniowane, a niektóre mogą być „fałszywe” (ASW <0), co powoduje niską ogólną wartość ASW.

Możesz spróbować użyć strategii ładowania początkowego, które powinny dać ci lepszą wskazówkę. W R do tego celu można użyć funkcji clusterbootz pakietu fpc(patrz strona pomocy). Jednak nie działa z ważonymi danymi. Jeśli twoje dane są nieważone, myślę, że warto spróbować.

Wreszcie możesz przyjrzeć się swoim danym i kategoryzacji. Być może Twoje kategorie są zbyt niestabilne lub źle zdefiniowane. Wydaje się jednak, że tak nie jest.

Jak już powiedziałeś, „brak wyraźnie zróżnicowanych klastrów to nie to samo, co brak interesujących odmian”. Istnieją inne metody analizy zmienności sekwencji, takie jak analiza rozbieżności. Te metody pozwalają badać powiązania między sekwencjami a czynnikami objaśniającymi. Możesz na przykład spróbować zbudować drzewa regresji sekwencji (funkcja „seqtree” w pakiecie TraMineR).

Matthias Studer
źródło