W statystyce ekologicznej istnieje wiele technik analizy danych eksploracyjnych danych wielowymiarowych. Są to tak zwane techniki „święceń”. Wiele z nich jest takich samych lub ściśle powiązanych z powszechnymi technikami w innych miejscach statystyki. Być może prototypowym przykładem byłaby analiza głównych składników (PCA). Ekolodzy mogą użyć PCA i powiązanych technik, aby zbadać „gradienty” (nie jestem do końca jasne, czym jest gradient, ale czytałem o nim trochę).
Na tej stronie ostatni punkt w części Analiza głównych składników (PCA) brzmi:
- PCA ma poważny problem z danymi dotyczącymi roślinności: efekt podkowy. Jest to spowodowane krzywoliniowością rozmieszczenia gatunków wzdłuż gradientów. Ponieważ krzywe reakcji gatunków są zwykle niemodalne (tj. Bardzo silnie krzywoliniowe), często występują efekty podkowy.
W dalszej części strony, w części Analiza korespondencji lub Wzajemne uśrednianie (RA) , odnosi się do „efektu łuku”:
- RA ma problem: efekt łuku. Jest to również spowodowane nieliniowością rozkładów wzdłuż gradientów.
- Łuk nie jest tak poważny jak efekt PCA podkowy, ponieważ końce gradientu nie są zwinięte.
Czy ktoś może to wyjaśnić? Ostatnio widziałem to zjawisko na wykresach, które ponownie przedstawiają dane w przestrzeni o niższych wymiarach (tj. Analiza korespondencji i analiza czynnikowa).
- Co „gradient” odpowiada bardziej ogólnie (tj. W kontekście nieekologicznym)?
- Jeśli dzieje się tak z Twoimi danymi, czy jest to „problem” („poważny problem”)? Po co?
- Jak interpretować wyniki tam, gdzie pojawia się podkowa / łuk?
- Czy należy zastosować środek zaradczy? Co? Czy pomogłyby transformacje oryginalnych danych? Co jeśli dane są porządkami porządkowymi?
Odpowiedzi mogą istnieć na innych stronach w tej witrynie (np. W przypadku PCA , CA i DCA ). Próbowałem przez to przejść. Dyskusje zawierają jednak dość nieznaną terminologię ekologiczną i przykłady, które trudniej zrozumieć.
źródło
Odpowiedzi:
Pytanie 1
Ekolodzy cały czas mówią o gradientach. Istnieje wiele rodzajów gradientów, ale najlepiej jest myśleć o nich jako o jakiejkolwiek kombinacji zmiennych, które chcesz lub są ważne dla odpowiedzi. Tak więc gradientem może być czas, przestrzeń lub kwasowość gleby, składniki odżywcze lub coś bardziej złożonego, takiego jak liniowa kombinacja zakresu zmiennych wymaganych w jakiś sposób przez reakcję.
Mówimy o gradientach, ponieważ obserwujemy gatunki w przestrzeni lub czasie, a cała masa rzeczy różni się w zależności od tej przestrzeni lub czasu.
Q2
Doszedłem do wniosku, że w wielu przypadkach podkowa w PCA nie stanowi poważnego problemu, jeśli rozumiesz, jak powstaje i nie robisz głupich rzeczy, takich jak wzięcie PC1, gdy „gradient” jest faktycznie reprezentowany przez PC1 i PC2 (no cóż, jest również podzielony na wyższe komputery, ale mam nadzieję, że dwuwymiarowa reprezentacja jest OK).
W CA myślę, że myślę tak samo (teraz musiałem się nad tym trochę zastanowić). Rozwiązanie może tworzyć łuk, gdy w danych nie ma silnego drugiego wymiaru, tak że wersja złożona pierwszej osi, która spełnia wymagania ortogonalności osi CA, wyjaśnia więcej „bezwładności” niż inny kierunek danych. Może to być poważniejsze, ponieważ jest to złożona struktura, w której za pomocą PCA łuk jest tylko sposobem na przedstawienie liczebności gatunków w miejscach wzdłuż jednego dominującego gradientu.
Nigdy do końca nie rozumiałem, dlaczego ludzie tak bardzo martwią się złym zamówieniem na PC1 z silną podkową. Odparłbym, że w takich przypadkach nie powinieneś brać tylko PC1, a wtedy problem znika; pary współrzędnych na PC1 i PC2 pozbywają się zwrotów na dowolnej z tych dwóch osi.
Pytanie 3
Gdybym widział podkowę w biplocie PCA, zinterpretowałbym dane jako mające jeden dominujący gradient lub kierunek zmiany.
Gdybym zobaczył łuk, prawdopodobnie doszłbym do tego samego, ale byłbym bardzo ostrożny, próbując w ogóle wyjaśnić oś 2 CA.
Nie zastosowałbym DCA - po prostu przekręca łuk (w najlepszych okolicznościach) tak, że nie widzisz osobliwości na wykresach 2D, ale w wielu przypadkach wytwarza inne fałszywe struktury, takie jak diamenty lub kształty trąbki rozmieszczenie próbek w przestrzeni DCA. Na przykład:
Po lewej stronie wykresu widzimy typowe rozkładanie przykładowych punktów.
Pytanie 4
Sugerowałoby to znalezienie nieliniowego kierunku w wielowymiarowej przestrzeni danych. Jedną z takich metod jest krzywa główna Hastie & Stuezel, ale dostępne są inne nieliniowe metody rozmaitości, które mogą wystarczyć.
Na przykład dla niektórych danych patologicznych
Widzimy silną podkowę. Krzywa główna próbuje odzyskać ten leżący u podstaw gradient lub układ / uporządkowanie próbek za pomocą gładkiej krzywej w m wymiarach danych. Poniższy rysunek pokazuje, w jaki sposób algorytm iteracyjny jest zbieżny na czymś zbliżonym do gradientu. (Myślę, że odchodzi on od danych na górze wykresu, aby być bliżej danych w wyższych wymiarach, a częściowo ze względu na kryterium zgodności wewnętrznej, aby krzywa została uznana za krzywą główną).
Mam więcej szczegółów, w tym kod na swoim blogu, z którego wziąłem te zdjęcia. Ale najważniejsze jest to, że główne krzywe łatwo odzyskują znane uporządkowanie próbek, podczas gdy same PC1 lub PC2 tego nie robią.
W przypadku PCA powszechnie stosuje się transformacje w ekologii. Popularnymi transformacjami są te, o których można pomyśleć o zwróceniu pewnej odległości innej niż euklidesowa, gdy odległość euklidesowa jest obliczana na przekształconych danych. Na przykład odległość Hellingera wynosi
Podkowa jest znana i badana od dawna w ekologii; część wczesnej literatury (plus bardziej nowoczesny wygląd) to
Główne odniesienia do krzywej głównej to
Ta pierwsza jest bardzo ekologiczną prezentacją.
źródło