Analizuję zestaw danych dotyczących społeczności pływów. Dane dotyczą procentu pokrycia (wodorostów, pąkli, małży itp.) W kwadratach. Jestem przyzwyczajony do myślenia o analizy korespondencji (CA) pod względem gatunku liczy, a analiza składowych głównych (PCA) jako coś bardziej przydatne dla liniowych (nie gatunków) trendów środowiskowych. Naprawdę nie miałem szczęścia dowiedzieć się, czy PCA lub CA lepiej nadają się na pokrycie procentowe (nie mogę znaleźć żadnych dokumentów), a nawet nie jestem pewien, w jaki sposób dystrybuowane byłoby coś, co jest ograniczone do 100% ?
Znam przybliżoną wytyczną, że jeśli długość pierwszej zniekształconej osi analizy korespondencji (DCA) jest większa niż 2, to możesz spokojnie założyć, że należy użyć urzędu certyfikacji. Długość osi 1 DCA wynosiła 2,17, co nie uważam za pomocne.
źródło
Odpowiedzi:
PCA działa na wartościach, podczas gdy CA działa na wartościach względnych. Oba są odpowiednie dla danych o względnej obfitości wspomnianego rodzaju (z jednym poważnym zastrzeżeniem, patrz później). Przy danych% masz już względną miarę, ale nadal będą różnice. Zapytaj siebie
Jeśli to pierwsze, użyj PCA. Jeśli ten ostatni używa CA. Chcę przez to powiedzieć dwa pytania
być uważanym za inny czy taki sam?
A
iB
są dwie próbki, a wartości stanowią procent pokrycia trzech pokazanych taksonów. (Ten przykład okazał się kiepski, zakładając, że jest gołe podłoże! ;-) PCA uznałoby je za bardzo różne ze względu na zastosowaną odległość euklidesową, ale CA uznałoby te dwie próbki za bardzo podobne, ponieważ mają taki sam profil względny.Dużym zastrzeżeniem jest tutaj zamknięty skład danych. Jeśli masz kilka grup (na przykład Sand, Silt, Clay), które sumują się do 1 (100%), wówczas żadne podejście nie jest poprawne i możesz przejść do bardziej odpowiedniej analizy za pomocą współczynnika logarytmicznego PCA Aitchisona, który został zaprojektowany do zamkniętego składu dane. (IIRC, aby to zrobić, musisz wyśrodkować według wierszy i kolumn, a dziennik przekształcić dane.) Istnieją również inne podejścia. Jeśli używasz R, wtedy jedna książka, która byłaby przydatna jest Analizując dane z badań kompozytorskiej .
źródło