Wykorzystanie analizy głównych składników a analiza korespondencji

9

Analizuję zestaw danych dotyczących społeczności pływów. Dane dotyczą procentu pokrycia (wodorostów, pąkli, małży itp.) W kwadratach. Jestem przyzwyczajony do myślenia o analizy korespondencji (CA) pod względem gatunku liczy, a analiza składowych głównych (PCA) jako coś bardziej przydatne dla liniowych (nie gatunków) trendów środowiskowych. Naprawdę nie miałem szczęścia dowiedzieć się, czy PCA lub CA lepiej nadają się na pokrycie procentowe (nie mogę znaleźć żadnych dokumentów), a nawet nie jestem pewien, w jaki sposób dystrybuowane byłoby coś, co jest ograniczone do 100% ?

Znam przybliżoną wytyczną, że jeśli długość pierwszej zniekształconej osi analizy korespondencji (DCA) jest większa niż 2, to możesz spokojnie założyć, że należy użyć urzędu certyfikacji. Długość osi 1 DCA wynosiła 2,17, co nie uważam za pomocne.

HFBrowning
źródło
3
Zarówno PCA, jak i CA są powiązane i oba mogą być oparte na algorytmie SVD. Podstawowa różnica formalna (nie wspomniana w skądinąd głębokiej odpowiedzi @ Gavina) polega na tym, że PCA rozkłada relacje tylko między kolumnami (np. Poprzez rozkład ich macierzy kowariancji), traktując wiersze jako „przypadki”; podczas gdy CA rozkłada kolumny i wiersze jednocześnie, traktując je symetrycznie, jako „kategorie” tabelarycznych. Stąd biplot pozostawiony przez CA i quasi-biplot (ładunki + wyniki), które można wykreślić po PCA, podają koncepcyjnie całkiem inne informacje.
ttnphns

Odpowiedzi:

9

PCA działa na wartościach, podczas gdy CA działa na wartościach względnych. Oba są odpowiednie dla danych o względnej obfitości wspomnianego rodzaju (z jednym poważnym zastrzeżeniem, patrz później). Przy danych% masz już względną miarę, ale nadal będą różnice. Zapytaj siebie

  • czy chcesz podkreślić wzór w obfitych gatunkach / taksonach (tj. tych z dużym procentem pokrycia), czy
  • chcesz skupić się na wzorach względnego składu?

Jeśli to pierwsze, użyj PCA. Jeśli ten ostatni używa CA. Chcę przez to powiedzieć dwa pytania

A = {50, 20, 10}
B = { 5,  2,  1}

być uważanym za inny czy taki sam? Ai Bsą dwie próbki, a wartości stanowią procent pokrycia trzech pokazanych taksonów. (Ten przykład okazał się kiepski, zakładając, że jest gołe podłoże! ;-) PCA uznałoby je za bardzo różne ze względu na zastosowaną odległość euklidesową, ale CA uznałoby te dwie próbki za bardzo podobne, ponieważ mają taki sam profil względny.

Dużym zastrzeżeniem jest tutaj zamknięty skład danych. Jeśli masz kilka grup (na przykład Sand, Silt, Clay), które sumują się do 1 (100%), wówczas żadne podejście nie jest poprawne i możesz przejść do bardziej odpowiedniej analizy za pomocą współczynnika logarytmicznego PCA Aitchisona, który został zaprojektowany do zamkniętego składu dane. (IIRC, aby to zrobić, musisz wyśrodkować według wierszy i kolumn, a dziennik przekształcić dane.) Istnieją również inne podejścia. Jeśli używasz R, wtedy jedna książka, która byłaby przydatna jest Analizując dane z badań kompozytorskiej .

Gavin Simpson
źródło
Jak zawsze, naprawdę świetna odpowiedź Gavin. Dziękuję Ci! To bardzo dużo wyjaśnia i wtedy użyję PCA. Biorąc pod uwagę, że społeczność pływów jest trójwymiarowa, procent pokrycia faktycznie poszedł w 100% w niektórych przypadkach, gdy organizmy rosły nad sobą. To nie jest zamknięta forma kompozycji, o której mówisz, prawda?
HFBrowning
Nie, nie o tym on mówi. Przez zamknięty uważam, że ma na myśli system, w którym z trzema gatunkami A, B, C masz% C = 100% -% B -% A
Pertinax
a co z DCA?
Darwin PC
DCA jest pomieszaną wersją CA, więc obowiązują ją te same ogólne zasady. DCA w jakiś dziwny sposób torturuje dane i nie sądzę, abyśmy musieli się tym przejmować jako metodę w naszym zestawie narzędzi, ale opinie innych będą się w tym różnić.
Gavin Simpson,