Co to jest „efekt podkowy” i / lub „efekt łuku” w analizie PCA / korespondencji?

20

W statystyce ekologicznej istnieje wiele technik analizy danych eksploracyjnych danych wielowymiarowych. Są to tak zwane techniki „święceń”. Wiele z nich jest takich samych lub ściśle powiązanych z powszechnymi technikami w innych miejscach statystyki. Być może prototypowym przykładem byłaby analiza głównych składników (PCA). Ekolodzy mogą użyć PCA i powiązanych technik, aby zbadać „gradienty” (nie jestem do końca jasne, czym jest gradient, ale czytałem o nim trochę).

Na tej stronie ostatni punkt w części Analiza głównych składników (PCA) brzmi:

  • PCA ma poważny problem z danymi dotyczącymi roślinności: efekt podkowy. Jest to spowodowane krzywoliniowością rozmieszczenia gatunków wzdłuż gradientów. Ponieważ krzywe reakcji gatunków są zwykle niemodalne (tj. Bardzo silnie krzywoliniowe), często występują efekty podkowy.

W dalszej części strony, w części Analiza korespondencji lub Wzajemne uśrednianie (RA) , odnosi się do „efektu łuku”:

  • RA ma problem: efekt łuku. Jest to również spowodowane nieliniowością rozkładów wzdłuż gradientów.
  • Łuk nie jest tak poważny jak efekt PCA podkowy, ponieważ końce gradientu nie są zwinięte.

Czy ktoś może to wyjaśnić? Ostatnio widziałem to zjawisko na wykresach, które ponownie przedstawiają dane w przestrzeni o niższych wymiarach (tj. Analiza korespondencji i analiza czynnikowa).

  1. Co „gradient” odpowiada bardziej ogólnie (tj. W kontekście nieekologicznym)?
  2. Jeśli dzieje się tak z Twoimi danymi, czy jest to „problem” („poważny problem”)? Po co?
  3. Jak interpretować wyniki tam, gdzie pojawia się podkowa / łuk?
  4. Czy należy zastosować środek zaradczy? Co? Czy pomogłyby transformacje oryginalnych danych? Co jeśli dane są porządkami porządkowymi?

Odpowiedzi mogą istnieć na innych stronach w tej witrynie (np. W przypadku PCA , CA i DCA ). Próbowałem przez to przejść. Dyskusje zawierają jednak dość nieznaną terminologię ekologiczną i przykłady, które trudniej zrozumieć.

gung - Przywróć Monikę
źródło
1
(+1) Znalazłem dość jasną odpowiedź na ordination.okstate.edu/PCA.htm . Wyjaśnienie „krzywoliniowości” w twoim cytacie jest całkowicie błędne - co czyni go tak mylącym.
whuber
2
Patrz także Diaconis i in. (2008), Podkowy w wielowymiarowym skalowaniu i lokalnych metodach jądra , Ann. Appl. Stat. , vol. 2, nr 3, 777–807.
kardynał
Próbowałem odpowiedzieć na twoje pytania, ale nie jestem pewien, jak dobrze to osiągnąłem, ponieważ jestem ekologiem, a gradienty są takie, jak myślę o tych rzeczach.
Przywróć Monikę - G. Simpson
@whuber: Cytowane wyjaśnienie „krzywoliniowości” może być mylące i niezbyt jasne, ale nie sądzę, by było „całkowicie błędne”. Gdyby liczebność gatunku w funkcji położenia wzdłuż prawdziwego „gradientu” (na przykładzie z twojego łącza) była liniowa (być może zepsuta przez pewien hałas), wówczas chmura punktów byłaby (w przybliżeniu) 1-wymiarowa i PCA znalazłby to. Chmura punktów staje się wygięta / zakrzywiona, ponieważ funkcje nie są liniowe. Specjalny przypadek przesuniętych Gaussów prowadzi do podkowy.
ameba mówi Przywróć Monikę
@Amoeba Niemniej jednak efekt podkowy nie wynika z krzywoliniowości gradientów gatunków: wynika z nieliniowości w proporcjach rozkładu . Cytat, przypisując efekt kształtom samych gradientów, nie identyfikuje poprawnie przyczyny tego zjawiska.
whuber

Odpowiedzi:

19

Pytanie 1

Ekolodzy cały czas mówią o gradientach. Istnieje wiele rodzajów gradientów, ale najlepiej jest myśleć o nich jako o jakiejkolwiek kombinacji zmiennych, które chcesz lub są ważne dla odpowiedzi. Tak więc gradientem może być czas, przestrzeń lub kwasowość gleby, składniki odżywcze lub coś bardziej złożonego, takiego jak liniowa kombinacja zakresu zmiennych wymaganych w jakiś sposób przez reakcję.

Mówimy o gradientach, ponieważ obserwujemy gatunki w przestrzeni lub czasie, a cała masa rzeczy różni się w zależności od tej przestrzeni lub czasu.

Q2

Doszedłem do wniosku, że w wielu przypadkach podkowa w PCA nie stanowi poważnego problemu, jeśli rozumiesz, jak powstaje i nie robisz głupich rzeczy, takich jak wzięcie PC1, gdy „gradient” jest faktycznie reprezentowany przez PC1 i PC2 (no cóż, jest również podzielony na wyższe komputery, ale mam nadzieję, że dwuwymiarowa reprezentacja jest OK).

W CA myślę, że myślę tak samo (teraz musiałem się nad tym trochę zastanowić). Rozwiązanie może tworzyć łuk, gdy w danych nie ma silnego drugiego wymiaru, tak że wersja złożona pierwszej osi, która spełnia wymagania ortogonalności osi CA, wyjaśnia więcej „bezwładności” niż inny kierunek danych. Może to być poważniejsze, ponieważ jest to złożona struktura, w której za pomocą PCA łuk jest tylko sposobem na przedstawienie liczebności gatunków w miejscach wzdłuż jednego dominującego gradientu.

Nigdy do końca nie rozumiałem, dlaczego ludzie tak bardzo martwią się złym zamówieniem na PC1 z silną podkową. Odparłbym, że w takich przypadkach nie powinieneś brać tylko PC1, a wtedy problem znika; pary współrzędnych na PC1 i PC2 pozbywają się zwrotów na dowolnej z tych dwóch osi.

Pytanie 3

Gdybym widział podkowę w biplocie PCA, zinterpretowałbym dane jako mające jeden dominujący gradient lub kierunek zmiany.

Gdybym zobaczył łuk, prawdopodobnie doszłbym do tego samego, ale byłbym bardzo ostrożny, próbując w ogóle wyjaśnić oś 2 CA.

Nie zastosowałbym DCA - po prostu przekręca łuk (w najlepszych okolicznościach) tak, że nie widzisz osobliwości na wykresach 2D, ale w wielu przypadkach wytwarza inne fałszywe struktury, takie jak diamenty lub kształty trąbki rozmieszczenie próbek w przestrzeni DCA. Na przykład:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

wprowadź opis zdjęcia tutaj

Po lewej stronie wykresu widzimy typowe rozkładanie przykładowych punktów.

Pytanie 4

m

Sugerowałoby to znalezienie nieliniowego kierunku w wielowymiarowej przestrzeni danych. Jedną z takich metod jest krzywa główna Hastie & Stuezel, ale dostępne są inne nieliniowe metody rozmaitości, które mogą wystarczyć.

Na przykład dla niektórych danych patologicznych

wprowadź opis zdjęcia tutaj

Widzimy silną podkowę. Krzywa główna próbuje odzyskać ten leżący u podstaw gradient lub układ / uporządkowanie próbek za pomocą gładkiej krzywej w m wymiarach danych. Poniższy rysunek pokazuje, w jaki sposób algorytm iteracyjny jest zbieżny na czymś zbliżonym do gradientu. (Myślę, że odchodzi on od danych na górze wykresu, aby być bliżej danych w wyższych wymiarach, a częściowo ze względu na kryterium zgodności wewnętrznej, aby krzywa została uznana za krzywą główną).

wprowadź opis zdjęcia tutaj

Mam więcej szczegółów, w tym kod na swoim blogu, z którego wziąłem te zdjęcia. Ale najważniejsze jest to, że główne krzywe łatwo odzyskują znane uporządkowanie próbek, podczas gdy same PC1 lub PC2 tego nie robią.

W przypadku PCA powszechnie stosuje się transformacje w ekologii. Popularnymi transformacjami są te, o których można pomyśleć o zwróceniu pewnej odległości innej niż euklidesowa, gdy odległość euklidesowa jest obliczana na przekształconych danych. Na przykład odległość Hellingera wynosi

DHellinger(x1,x2)=j=1p[y1jy1+y2jy2+]2

yijjiyi+i

Podkowa jest znana i badana od dawna w ekologii; część wczesnej literatury (plus bardziej nowoczesny wygląd) to

Główne odniesienia do krzywej głównej to

Ta pierwsza jest bardzo ekologiczną prezentacją.

Przywróć Monikę - G. Simpson
źródło
Dzięki, Gavin. Rozważ zwykłe oceny 1: 5 z zestawu danych z pytaniami takimi jak: „Lubię mojego lekarza” i „Czuję, że mój lekarz dba o mnie jako osobę”. Nie są one znacząco rozłożone w przestrzeni ani w czasie. Jaki byłby tutaj „gradient”?
Gung - Przywróć Monikę
Bez tabeli 5x5 i wysokiej N, jednym ze sposobów wizualizacji danych jest w / CA. Dane są porządkowe, ale CA tego nie rozpoznaje; więc możemy sprawdzić, czy sąsiednie rzędy / kolumny są bliżej niż te dalej od siebie. Oba zestawy punktów biegną wzdłuż wyraźnej linii w odpowiedniej kolejności, ale linia wygina się tak, że skrajności są bliżej siebie niż punkt środkowy w przestrzeni 2D. Jak to należy interpretować?
Gung - Przywróć Monikę
CA znajduje kolejność dla wierszy (próbek) i zmiennych (cols), która maksymalizuje rozproszenie „wyników” próbki. Znajduje ukrytą zmienną (liniową kombinację zmiennych), która maksymalizuje tę dyspersję. Nazywamy tę zmienną ukrytą gradientem.
Przywróć Monikę - G. Simpson,
Jeśli chodzi o kompresję, czy masz na myśli bliżej siebie na osi 1 CA, czy bliżej siebie pod względem odległości euklidesowej w skali biplota? Tak czy inaczej, jest to naprawdę problem w rzutowaniu danych do przestrzeni o niskim wymiarze. DCA próbuje cofnąć ten efekt, wyciągając próbki na końcu zniekształconej osi 1 DCA i ściskając próbki w pobliżu źródła. Tak, to problem, ale wynika to z braku elastyczności metody odpowiedniego wychwytywania gradientu. Możemy z tym żyć lub zastosować bardziej elastyczne podejście (przynajmniej w ekologii).
Przywróć Monikę - G. Simpson,
1
Jeśli spojrzysz na to w większej liczbie wymiarów, problem zniknie. Myślę, że to tylko limit metody; w wielu przypadkach jest OK, ale w innych nie.
Przywróć Monikę - G. Simpson,