Mam kilka zmiennych, które zawierają dane podłużne od dnia 0 do dnia 7. Poszukuję odpowiedniego podejścia grupującego, które może grupować te zmienne podłużne (nie przypadki) w różne grupy. Próbowałem analizować ten zestaw danych osobno według czasu, ale wynik był dość trudny do racjonalnego wyjaśnienia.
Zbadałem dostępność procedury SAS, PROC SIMILARITY
ponieważ istnieje na jej stronie internetowej przykład ; myślę jednak, że nie jest to właściwy sposób. Niektóre wcześniejsze badania wykorzystywały eksploracyjną analizę czynników w każdym punkcie czasowym, ale nie jest to również opcja w moim badaniu z powodu nieuzasadnionych wyników.
Mamy nadzieję, że można tu podać kilka pomysłów, a skompilowany program, taki jak SAS lub R, może być dostępny do przetworzenia. Wszelkie sugestie są mile widziane !!
Oto krótki przykład (przepraszam za niespójną pozycję między danymi a nazwami zmiennych):
id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
2 0 8 7 3 7 6 6 0 0 5 2
2 1 3 5 2 6 5 5 1 1 4 2
2 2 2 3 2 4 4 2 0 0 2 2
2 3 6 4 2 5 3 2 1 2 3 3
2 4 5 3 4 4 3 3 4 3 3 3
2 5 6 4 5 5 6 3 3 2 2 2
2 6 7 5 2 4 4 3 3 4 4 5
2 7 7 7 2 6 4 4 0 0 4 3
4 0 10 7 0 2 2 6 7 7 0 9
4 1 8 7 0 0 0 9 3 3 7 8
4 2 8 7 0 0 0 9 3 3 7 8
4 3 8 7 0 0 0 9 3 3 7 8
4 4 5 7 0 0 0 9 3 3 7 8
4 5 5 7 0 0 0 9 3 3 7 8
4 6 5 7 0 0 0 9 3 3 7 8
4 7 5 7 0 0 0 9 3 3 7 8
5 0 9 6 1 3 2 2 2 3 3 5
5 1 7 3 1 3 1 3 2 2 1 3
5 2 6 4 0 4 2 4 2 1 2 4
5 3 6 3 2 3 2 3 3 1 3 4
5 4 8 6 0 5 3 3 2 2 3 4
5 5 9 6 0 4 3 3 2 3 2 5
5 6 8 6 0 4 3 3 2 3 2 5
5 7 8 6 0 4 3 3 2 3 2 5
źródło
Odpowiedzi:
W
Hmisc
pakiecie R patrz plik pomocy dlacurveRep
funkcji, która oznacza „reprezentatywne krzywe”.curveRep
klastry na kształtach krzywych, lokalizacjach i wzorach brakujących punktów czasowych.źródło
x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
Nie jestem pewien, czy tego właśnie szukasz, ale pakiet
kml
w R używa k-średnich do grupowania sekwencji powtarzanych miar. Tu jest link do paczki stronie i na papierze (niestety, to jest ogrodzony). Działa to dobrze tylko wtedy, gdy masz dość mały zestaw danych (kilkaset sekwencji).tutaj jest nie bramkowana wersja artykułu (bez problemów z odniesieniem): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf
źródło
Tak więc masz p zmiennych mierzonych za każdym razem t na tych samych n osobnikach. Jednym ze sposobów jest obliczenie macierzy podobieństwa pXp (dis) i zastosowanie skalowania wielowymiarowego modelu INDSCAL. Otrzymasz dwie mapy o małych wymiarach (powiedzmy o 2 wymiarach). Pierwsza mapa pokazuje współrzędne z p zmiennych w przestrzeni o wymiarach i odzwierciedla ugrupowania wśród nich, jeśli takie istnieją. Druga mapa pokazuje wagi (tj. Ważność lub istotność) wymiarów w każdej macierzy t .
źródło