Czy mogę zrobić PCA w sprawie powtarzających się środków redukcji danych?

13

Mam 3 próby na 87 zwierzętach w każdym z 2 kontekstów (niektóre brakujące dane; brak brakujących danych = 64 zwierząt). W kontekście, mam wiele środków specyficznych (czas wejść, wielokrotnie powracających do schroniska itp), więc chcę się rozwijać od 2 do 3 kompozytowych ocenę zachowania, które opisują zachowanie w tym kontekście (nazywają je C1, C2, C3). Chcę, żeby to C1oznaczało to samo we wszystkich 3 próbach i 87 zwierzętach, abym mógł zrobić regresję w celu zbadania wpływu wieku, płci, rodowodu i poszczególnych zwierząt na zachowanie. Następnie chcę zbadać, w jaki sposób C1odnosi się do wyników behawioralnych w innym kontekście, w określonym wieku. (Czy w wieku 1 lat aktywność w kontekście 1 silnie przewiduje aktywność w kontekście 2?)

Gdyby nie były to powtarzane pomiary, PCA działałoby dobrze - wykonaj PCA na wielu miarach kontekstu, a następnie użyj PC1, PC2 itp., Aby zbadać relacje (korelacje Spearmana) między PC1 w jednym kontekście a PC1 (lub 2 lub 3) w innym kontekście. Problemem są powtarzające się pomiary, które popadają w pseudoreplikację. Kazałem recenzentowi kategorycznie powiedzieć „nie iść”, ale nie mogę znaleźć żadnych wyraźnych odniesień do tego, czy jest to problematyczne przy redukcji danych.

Moje rozumowanie jest następujące: powtarzane pomiary nie stanowią problemu, ponieważ to, co robię w PCA, ma charakter wyłącznie opisowy w stosunku do pierwotnych miar. Gdybym oświadczył przez fiat, że wykorzystuję czas, aby wejść na arenę jako miarę „śmiałości” w kontekście 1, miałbym miarę odwagi w kontekście 1, która byłaby porównywalna dla wszystkich osób w każdym wieku i nikt by się nie odważył. Jeśli zadeklaruję przez fiata, że ​​użyję czas do wejścia czas do końca, to samo dzieje się. Więc jeśli używam PCA wyłącznie w celach redukcyjnych, dlaczego nie może to być PC1 (może to być wpisz wykończenie0,5+ 0,50,28+ 0,63+ 0,02 całkowity czas ...), który jest przynajmniej informowany przez moje liczne miary zamiast zgadywania, że ​​czas na wejście jest ogólnie informacyjną i reprezentatywną cechą?

(Uwaga: nie interesuje mnie podstawowa struktura miar ... moje pytania dotyczą tego, jak interpretujemy zachowania specyficzne dla kontekstu. ”Gdybym użył kontekstu 1 i stwierdził, że Harry jest aktywny w porównaniu z innymi zwierzętami, czy widzę Harry aktywny w kontekście 2? Jeśli zmienia to, co interpretujemy jako aktywność w kontekście 1, gdy się starzeje, to czy również zmienia swoją aktywność w kontekście 2?)

Patrzyłem na PARAFAC i patrzyłem na SEM i nie jestem przekonany, że którekolwiek z tych podejść jest lepsze lub bardziej odpowiednie dla mojej wielkości próby. Czy ktoś może ważyć? Dzięki.

Leann
źródło
Czy rozumiem, że masz rację, że masz 2 czynniki wewnątrz podmiotu: 1) kontekst, który różni się niektórymi warunkami eksperymentalnymi (np. Eksperyment w pomieszczeniu vs eksperyment na zewnątrz), 2) próba, która jest po prostu powtórzeniem, próbą eksperymentu. I chciałbyś zrobić PCA w każdych warunkach, ale powstrzymuje cię to przed wykonaniem nie jednej, ale kilku prób eksperymentu.
ttnphns,
Te dwa konteksty to dwa osobne testy, a środki zastosowane w każdym z nich są różne. To powiedziawszy, rozumiesz moją sytuację.
Leann
Co powiesz na uniknięcie problemu i uruchomienie PCA w środkach we wszystkich trzech próbach?
Gala,

Odpowiedzi:

7

Możesz zajrzeć do analizy wielu czynników . Można to zaimplementować w R za pomocą FactoMineR.

AKTUALIZACJA:

Aby to rozwinąć, Leann zaproponował - choć dawno temu - przeprowadzenie PCA na zbiorze danych z powtarzanymi pomiarami. Jeśli dobrze rozumiem strukturę jej zbioru danych, dla danego „kontekstu” miała ona zwierzęcą x„określoną miarę” (czas na wejście, liczbę powrotów do schronienia itp.). Każde z 64 zwierząt (tych, których nie brakowało obs.) Obserwowano trzykrotnie. Powiedzmy, że miała 10 „środki szczególne”, więc będzie ona wtedy trzy 64 x 10 matryc na zachowanie zwierzęcia (możemy nazwać macierze X1, X2, X3). Aby uruchomić PCA na trzech macierzach jednocześnie, musiałaby „powiązać wiersz” z trzema macierzami (npPCA(rbind(X1,X2,X3))). Ale ignoruje to fakt, że pierwsza i 64 obserwacja dotyczy tego samego zwierzęcia. Aby obejść ten problem, może „powiązać kolumnę” z trzema macierzami i przeprowadzić je przez analizę wielu czynników. MFA to przydatny sposób analizy wielu zestawów zmiennych mierzonych na tych samych osobnikach lub obiektach w różnych punktach czasowych. Będzie mogła wydobyć podstawowe składniki z MFA w taki sam sposób jak w PCA, ale będzie miała jedną współrzędną dla każdego zwierzęcia. Obiekty zwierząt zostaną teraz umieszczone w wielowymiarowej przestrzeni kompromisu ograniczonej jej trzema obserwacjami.

Byłaby w stanie wykonać analizę przy użyciu pakietu FactoMineR w R. Przykładowy kod wyglądałby mniej więcej tak:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Ponadto zamiast wyodrębnić pierwsze trzy składniki z MFA i poddać je regresji wielokrotnej, mogłaby pomyśleć o rzutowaniu swoich zmiennych objaśniających bezpośrednio na MFA jako „tabele uzupełniające” (patrz ?FactoMineR). Innym podejściem byłoby obliczenie euklidesowej macierzy odległości współrzędnych obiektu na podstawie MFA (np. dist1=vegdist(mfa1$ind$coord, "euc")) I poddanie jej analizie RDA dist1w zależności od zmiennych specyficznych dla zwierząt (np. Przy rda(dist1~age+sex+pedigree)użyciu pakietu wegańskiego).

Kyle
źródło
2
Cześć Kyle, dzięki za odpowiedź. Jednak odpowiedzi, które składają się zasadniczo z niewiele więcej niż linku lub które mają tylko zdanie, nie są na ogół uważane za odpowiedzi, ale komentarze. W szczególności odpowiedzi tylko na link cierpią na zgniliznę linków, więc odpowiedzi powinny zawierać wystarczającą ilość informacji, aby były przydatne, nawet jeśli link już nie działa. Czy możesz bardziej rozszerzyć swoją odpowiedź, być może podając bardzo krótki zarys tego, co to jest / jak ogólnie odnosi się do analizy czynnikowej?
Glen_b
(+1) Zdaję sobie sprawę, że to stary post, ale ta odpowiedź jest bardzo przydatna! Być może odniesienie powinno zostać całkowicie dodane na wypadek śmierci łącza: Abdi Hervé, Williams Lynne J., Valentin Domininique. Analiza wieloczynnikowa: analiza głównych składników dla zestawów danych wielozakresowych i wieloblokowych. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg
4

Powszechnie stosuje się PCA do analizy powtarzanych miar (np. Służy do analizy danych sprzedaży, cen akcji i kursów walutowych). Logika jest taka, jak się wyrażasz (tj. Uzasadnienie jest takie, że PCA jest narzędziem redukcji danych, a nie narzędziem wnioskowania ).

Jedna publikacja dość dobrego statystyki to: Bradlow, ET (2002). „ Badanie zestawów danych z powtarzanymi pomiarami dla kluczowych funkcji za pomocą analizy głównych składników. ” Journal of Research in Marketing 19: 167-179.

Tim
źródło