Interpretacja wykresów analizy korespondencji 2D

19

Szukałem w Internecie daleko i daleko ... Muszę znaleźć naprawdę dobry przegląd interpretacji wykresów analizy korespondencji 2D. Czy ktoś mógłby udzielić porady na temat interpretacji odległości między punktami?

Być może przydałby się przykład, oto spisek znaleziony na wielu stronach, które widziałem, omawiający analizę korespondencji. Czerwone trójkąty przedstawiają kolor oczu, a czarne kropki przedstawiają kolor włosów.

alternatywny tekst

Patrząc na powyższy wykres, czy możesz zrobić kilka stwierdzeń na temat tego, co widzisz w tych danych. Ciekawe informacje na temat różnych wymiarów i relacji między trójkątami i kropkami?

Wyjaśnienie punktów wierszy i wierszy kolumn oraz użycie słowa „profil” ze szczególnym uwzględnieniem przykładu byłoby instrumentalne.

Brandon Bertelsen
źródło
1
Oprócz doskonałego konta @ chl poniżej, rozważ także ten, w którym proste CA i PCA są tylko formami „analizy biplotowej”.
ttnphns

Odpowiedzi:

24

Po pierwsze, istnieją różne sposoby konstruowania tak zwanych dwupłatów w przypadku analizy korespondencji. We wszystkich przypadkach podstawową ideą jest znalezienie sposobu, aby pokazać najlepsze przybliżenie 2D „odległości” między komórkami wiersza i komórkami kolumny. Innymi słowy, szukamy hierarchii (mówimy również o „wyświęceniu”) relacji między wierszami i kolumnami tabeli awaryjnej.

χ2

corresp()MASSRtC=NN

i=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfjχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

χ2H0( i , j )ni×nj/n(i,j)

Jeśli zdajesz sobie sprawę z PCA w profilach rzędów (postrzeganych jako osoby), zastępując odległość euklidesową przezcos 2 i j χ 2χ2odległość, a następnie otrzymasz swój CA. Pierwsza główna oś jest linią najbliższą wszystkim punktom, a odpowiadającą jej wartością własną jest bezwładność wyjaśniona przez ten wymiar. Możesz zrobić to samo z profilami kolumn. Można wykazać, że istnieje symetria między tymi dwoma podejściami, a dokładniej, że główne elementy (PC) dla profili kolumnowych są powiązane z tymi samymi wartościami własnymi niż komputery PC dla profili rzędów. Biplot pokazuje współrzędne osobników w tym nowym układzie współrzędnych, chociaż osobniki są reprezentowane w osobnej przestrzeni czynnikowej. Pod warunkiem, że każda jednostka / modalność jest dobrze reprezentowana w przestrzeni silni (możesz spojrzeć nacos2modalności z pierwszą osią główną, która jest miarą korelacji / asocjacji), możesz nawet zinterpretować bliskość między elementami i tabeli kontyngencji (co można zrobić, patrząc na resztki twojego test niezależności, np .).ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed

Całkowita bezwładność twojego CA (= suma wartości własnych) jest statystyką podzieloną przez (która jest Pearsona ). n ϕ 2χ2nϕ2

Faktycznie, istnieje kilka pakietów, które mogą zapewnić Państwu urzędów ulepszonych w porównaniu do funkcji dostępnych w MASSpakiecie: ade4 , FactoMineR , anacor i ok .

Najnowszą jest ten, który został użyty do danej ilustracji, a papier został opublikowany w Journal of oprogramowania statystycznego, który wyjaśnia większość swoich functionnalities: Korespondencja Analiza w R, z grafiką Dwu- i Trójwymiarowe: CA Package .

Twój przykład dotyczący kolorów oczu / włosów można odtworzyć na wiele sposobów:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

We wszystkich przypadkach to, co czytamy w wynikowym biplocie, jest w zasadzie (ograniczam moją interpretację do 1. osi, która tłumaczy większość bezwładności):

  • pierwsza oś podkreśla wyraźny sprzeciw między jasnymi i ciemnymi kolorami włosów oraz między niebieskimi i brązowymi oczami;
  • ludzie o blond włosach mają również niebieskie oczy, a ludzie o czarnych włosach mają brązowe oczy.

Istnieje wiele dodatkowych zasobów na temat analizy danych w laboratorium bioinformatyki z Lyonu we Francji. Jest to głównie po francusku, ale myślę, że nie będzie to dla ciebie zbyt dużym problemem. Następujące dwa materiały powinny być interesujące na początek:

k

chl
źródło
1
@Brandon 1. oś jest osią „dominacji” (światło -> ciemność) dla obu modalności, ale widzimy również, że 1. oś przeciwstawia niebieskie i zielone oczy brązowym i piwnym (ich współrzędne są przeciwnych znaków), oraz kombinacja rudych włosów / zielonych oczu - co jest dość rzadkie - przyczynia się głównie do 2. osi czynnika. Ponieważ oś ta wyjaśnia jedynie 9,5% całkowitej bezwładności, raczej trudno jest wyciągnąć jednoznaczne wnioski (zwłaszcza wr. Hipotezy genetyczne).
chl
1
@Brandon Dwa dalsze odniesienia (tym razem w języku angielskim): kurs PBIL ( j.mp/cHZT7X ) i zasoby Michaela Friendlya ( j.mp/cYHyVn + vcdi vcdExtrapakiety R, przy czym ten drugi zawiera ładną winietę).
chl
2
@Brandon Tak, jedna modalność = jedna kategoria dla twojej zmiennej. W przypadku drugiego pytania corchodzi o kwadratową korelację z osią i ctrstanowi wkład (należy go podzielić przez 10, aby odczytać go jako%). Tak więc „rude włosy” stanowią 55,1% bezwładności drugiej osi. W pewnym sensie uważam, że wyjście FactoMineR jest bardziej „intuicyjne” ( CA(tab, graph=FALSE)$row$contribdaje ci bezpośrednio%).
chl
1
@chl: wow, dla kogoś, kto nic nie wie o CCA lub „francuskiej drodze”, to była świetna lektura! Wielkie dzięki. Znalazłem to również z pewnym googlowaniem, które może być interesujące: www-stat.stanford.edu/~susan/papers/dfc.pdf
ars
1
@ars (+1) Dzięki za link (nie wiedziałem o tej monografii, wygląda interesująco). Moje najlepsze rekomendacje dotyczące najnowszych osiągnięć to tak naprawdę WSZYSTKIE artykuły autorstwa Jana de Leeuw i te dwie książki: Analiza wielu korespondencji i powiązane metody z Greenacre oraz Analiza danych geometrycznych: od analizy korespondencji do analizy danych strukturalnych z Le Roux i Rouanet (po francusku) .
chl