Mam różne zmienne, które oddziałują w obrębie populacji. Zasadniczo robiłem inwentaryzację krocionogów i mierzyłem inne wartości terenu, takie jak:
- Gatunek i ilość zebranych okazów
- Różne środowiska, w których przebywają zwierzęta
- pH
- Procent materiału organicznego
- ilość P, K, Mg, Ca, Mn, Fe, Zn, Cu
- Relacja Ca + Mg / K
Zasadniczo chciałbym użyć PCA do ustalenia, które zmienne sterują zmiennością próbek i czynią las (środowisko) innym; jakich zmiennych należy użyć dla „zmiennych”, a które dla „osób”?
Odpowiedzi:
Jak wspomniano w komentarzach @amoeba, PCA przyjrzy się tylko jednemu zestawowi danych i pokaże główne (liniowe) wzorce zmienności tych zmiennych, korelacje lub kowariancje między tymi zmiennymi oraz relacje między próbkami (wiersze ) w zestawie danych.
To, co zwykle robi się z zestawem danych o gatunkach i pakietem potencjalnych zmiennych objaśniających, to dopasowanie ograniczonego wyświęcenia. W PCA główne komponenty, osie na biplocie PCA, są wyprowadzane jako optymalne kombinacje liniowe wszystkich zmiennych. Jeśli użyłeś tego w zestawie danych chemii gleby ze zmiennymi pH,doza2 + , TotalCarbon, może się okazać, że był to pierwszy składnik
i drugi składnik
Składniki te można dowolnie wybierać spośród mierzonych zmiennych, a wybierane są te, które wyjaśniają sekwencyjnie największą ilość zmian w zbiorze danych oraz że każda kombinacja liniowa jest ortogonalna (nieskorelowana) z innymi.
W ograniczonym święceniu mamy dwa zestawy danych, ale nie jesteśmy w stanie wybrać dowolnych liniowych kombinacji pierwszego zestawu danych (dane dotyczące chemii gleby powyżej), jakie chcemy. Zamiast tego musimy wybrać liniowe kombinacje zmiennych w drugim zestawie danych, które najlepiej wyjaśniają zmienność w pierwszym. Ponadto w przypadku PCA jednym zestawem danych jest matryca odpowiedzi i nie ma predyktorów (można by pomyśleć o odpowiedzi jako o przewidywaniu). W przypadku ograniczonym mamy zestaw danych odpowiedzi, który chcemy wyjaśnić za pomocą zestawu zmiennych objaśniających.
Chociaż nie wyjaśniłeś, które zmienne są odpowiedzią, zwykle chce się wyjaśnić zmienność liczebności lub składu tych gatunków (tj. Odpowiedzi) za pomocą zmiennych objaśniających środowisko.
Ograniczona wersja PCA jest nazywana analizą redundancji (RDA) w kręgach ekologicznych. Zakłada to podstawowy liniowy model reakcji dla gatunku, który jest albo nieodpowiedni, albo odpowiedni tylko, jeśli masz krótkie gradienty, wzdłuż których gatunek reaguje.
Alternatywą dla PCA jest tzw. Analiza korespondencji (CA). Jest to nieograniczone, ale ma bazowy model reakcji jednomodalnej, który jest nieco bardziej realistyczny pod względem reakcji gatunków na dłuższe gradienty. Należy również zauważyć, że CA modeluje względne obfitości lub skład , PCA modeluje surowe obfitości.
Istnieje ograniczona wersja CA, znana jako ograniczona lub kanoniczna analiza korespondencji (CCA) - której nie należy mylić z bardziej formalnym modelem statystycznym zwanym analizą korelacji kanonicznej.
Zarówno w RDA, jak i CCA celem jest modelowanie zmienności liczebności i składu gatunkowego jako serii liniowych kombinacji zmiennych objaśniających.
Z opisu brzmi to tak, jakby twoja żona chciała wyjaśnić zmienność składu gatunków krocionogów (lub liczebność) pod względem innych mierzonych zmiennych.
Kilka słów ostrzeżenia; RDA i CCA to tylko regresje wielowymiarowe; CCA to tylko ważona regresja wielowymiarowa. Wszystko, czego nauczyłeś się o regresji, ma zastosowanie, a także kilka innych błędów:
więc moja rada jest taka sama jak w przypadku regresji; pomyśl z góry, jakie są twoje hipotezy i uwzględnij zmienne, które odzwierciedlają te hipotezy. Nie wrzucaj do mieszanki wszystkich zmiennych objaśniających.
Przykład
Święcenia nieograniczone
PCA
Pokażę przykład porównujący PCA, CA i CCA przy użyciu pakietu wegańskiego dla R, który pomagam utrzymać i który jest zaprojektowany, aby pasował do tego rodzaju metod święceń:
wegańskie nie standaryzuje bezwładności, w przeciwieństwie do Canoco, więc całkowita wariancja wynosi 1826, a wartości własne są w tych samych jednostkach i sumują się do 1826
Widzimy również, że pierwsza wartość własna stanowi około połowy wariancji, a przy dwóch pierwszych osiach wyjaśniliśmy ~ 80% całkowitej wariancji
Dwupłat można wyciągnąć z wyników próbek i gatunków na pierwszych dwóch głównych składnikach
Istnieją tutaj dwa problemy
CA
CA może pomóc w obu tych punktach, ponieważ lepiej radzi sobie z długim gradientem ze względu na model reakcji jednomodalnej i modeluje względny skład gatunków, a nie surowe liczebności.
Kod wegański / R do tego celu jest podobny do kodu PCA użytego powyżej
Tutaj wyjaśniamy około 40% zmienności między stronami w ich względnym składzie
Wspólna fabuła gatunków i oceny terenów jest obecnie mniej zdominowana przez kilka gatunków
Wybór PCA lub urzędu certyfikacji powinien zależeć od pytań, które chcesz zadać na temat danych. Zwykle w przypadku danych gatunków częściej interesuje nas różnica w zestawie gatunków, więc CA jest popularnym wyborem. Gdybyśmy mieli zestaw danych zmiennych środowiskowych, powiedzmy chemii wody lub gleby, nie spodziewalibyśmy się, że reagują one w sposób jednomodalny wzdłuż gradientów, więc CA byłby niewłaściwy, a PCA (macierzy korelacji używanej
scale = TRUE
wrda()
wywołaniu) byłby bardziej odpowiedni.Ograniczone święcenia; CCA
Teraz, jeśli mamy drugi zestaw danych, który chcemy wykorzystać do wyjaśnienia wzorców w pierwszym zbiorze danych o gatunkach, musimy zastosować ograniczenie święceń. Często wybierany jest tutaj CCA, ale RDA jest alternatywą, podobnie jak RDA po transformacji danych, aby umożliwić lepsze przetwarzanie danych dotyczących gatunków.
Ponownie używamy tej
cca()
funkcji, ale albo dostarczamy dwie ramki danych (X
dla gatunków iY
dla zmiennych objaśniających / predykcyjnych) lub formułę modelu zawierającą formę modelu, który chcemy dopasować.Aby uwzględnić wszystkie zmienne, moglibyśmy użyć
varechem ~ ., data = varechem
formuły do uwzględnienia wszystkich zmiennych - ale jak powiedziałem powyżej, ogólnie nie jest to dobry pomysłTryplot powyższego wyświęcenia jest tworzony przy użyciu
plot()
metodyOczywiście teraz zadaniem jest ustalenie, która z tych zmiennych jest rzeczywiście ważna. Zauważ też, że wyjaśniliśmy około 2/3 wariancji gatunkowych, używając tylko 13 zmiennych. jednym z problemów związanych ze stosowaniem wszystkich zmiennych w tym uporządkowaniu jest to, że stworzyliśmy łukową konfigurację w próbkach i ocenach gatunków, co jest czystym artefaktem użycia zbyt wielu skorelowanych zmiennych.
Jeśli chcesz dowiedzieć się więcej na ten temat, sprawdź wegańską dokumentację lub dobrą książkę na temat wielowymiarowej analizy danych ekologicznych.
Związek z regresją
Najłatwiej jest zilustrować związek z RDA, ale CCA jest dokładnie taki sam, z tym wyjątkiem, że wszystko obejmuje obustronne sumy krańcowe wierszy i kolumn jako wagi.
W istocie RDA jest równoważne zastosowaniu PCA do macierzy dopasowanych wartości z wielokrotnej regresji liniowej dopasowanej do wartości każdego gatunku (odpowiedzi) (powiedzmy obfitości) z predyktorami podanymi przez macierz zmiennych objaśniających.
W R możemy to zrobić jako
Wartości własne dla tych dwóch podejść są równe:
Z jakiegoś powodu nie mogę dopasować wyników osi (obciążeń), ale niezmiennie są one skalowane (lub nie), więc muszę przyjrzeć się dokładnie, jak się to robi.
Nie wykonujemy RDA poprzez,
rda()
jak pokazałem zlm()
itp., Ale używamy rozkładu QR dla części modelu liniowego, a następnie SVD dla części PCA. Ale niezbędne kroki są takie same.źródło
fitted()
daje: