Szukałem w Internecie daleko i daleko ... Muszę znaleźć naprawdę dobry przegląd interpretacji wykresów analizy korespondencji 2D. Czy ktoś mógłby udzielić porady na temat interpretacji odległości między punktami?
Być może przydałby się przykład, oto spisek znaleziony na wielu stronach, które widziałem, omawiający analizę korespondencji. Czerwone trójkąty przedstawiają kolor oczu, a czarne kropki przedstawiają kolor włosów.
Patrząc na powyższy wykres, czy możesz zrobić kilka stwierdzeń na temat tego, co widzisz w tych danych. Ciekawe informacje na temat różnych wymiarów i relacji między trójkątami i kropkami?
Wyjaśnienie punktów wierszy i wierszy kolumn oraz użycie słowa „profil” ze szczególnym uwzględnieniem przykładu byłoby instrumentalne.
interpretation
correspondence-analysis
biplot
Brandon Bertelsen
źródło
źródło
Odpowiedzi:
Po pierwsze, istnieją różne sposoby konstruowania tak zwanych dwupłatów w przypadku analizy korespondencji. We wszystkich przypadkach podstawową ideą jest znalezienie sposobu, aby pokazać najlepsze przybliżenie 2D „odległości” między komórkami wiersza i komórkami kolumny. Innymi słowy, szukamy hierarchii (mówimy również o „wyświęceniu”) relacji między wierszami i kolumnami tabeli awaryjnej.
corresp()
MASS
Jeśli zdajesz sobie sprawę z PCA w profilach rzędów (postrzeganych jako osoby), zastępując odległość euklidesową przezcos 2 i j χ 2χ2 odległość, a następnie otrzymasz swój CA. Pierwsza główna oś jest linią najbliższą wszystkim punktom, a odpowiadającą jej wartością własną jest bezwładność wyjaśniona przez ten wymiar. Możesz zrobić to samo z profilami kolumn. Można wykazać, że istnieje symetria między tymi dwoma podejściami, a dokładniej, że główne elementy (PC) dla profili kolumnowych są powiązane z tymi samymi wartościami własnymi niż komputery PC dla profili rzędów. Biplot pokazuje współrzędne osobników w tym nowym układzie współrzędnych, chociaż osobniki są reprezentowane w osobnej przestrzeni czynnikowej. Pod warunkiem, że każda jednostka / modalność jest dobrze reprezentowana w przestrzeni silni (możesz spojrzeć nacos2 modalności z pierwszą osią główną, która jest miarą korelacji / asocjacji), możesz nawet zinterpretować bliskość między elementami i tabeli kontyngencji (co można zrobić, patrząc na resztki twojego test niezależności, np .).i j χ2
chisq.test(tab)$expected-chisq.test(tab)$observed
Całkowita bezwładność twojego CA (= suma wartości własnych) jest statystyką podzieloną przez (która jest Pearsona ). n ϕ 2χ2 n ϕ2
Faktycznie, istnieje kilka pakietów, które mogą zapewnić Państwu urzędów ulepszonych w porównaniu do funkcji dostępnych w
MASS
pakiecie: ade4 , FactoMineR , anacor i ok .Najnowszą jest ten, który został użyty do danej ilustracji, a papier został opublikowany w Journal of oprogramowania statystycznego, który wyjaśnia większość swoich functionnalities: Korespondencja Analiza w R, z grafiką Dwu- i Trójwymiarowe: CA Package .
Twój przykład dotyczący kolorów oczu / włosów można odtworzyć na wiele sposobów:
We wszystkich przypadkach to, co czytamy w wynikowym biplocie, jest w zasadzie (ograniczam moją interpretację do 1. osi, która tłumaczy większość bezwładności):
Istnieje wiele dodatkowych zasobów na temat analizy danych w laboratorium bioinformatyki z Lyonu we Francji. Jest to głównie po francusku, ale myślę, że nie będzie to dla ciebie zbyt dużym problemem. Następujące dwa materiały powinny być interesujące na początek:
źródło
vcd
ivcdExtra
pakiety R, przy czym ten drugi zawiera ładną winietę).cor
chodzi o kwadratową korelację z osią ictr
stanowi wkład (należy go podzielić przez 10, aby odczytać go jako%). Tak więc „rude włosy” stanowią 55,1% bezwładności drugiej osi. W pewnym sensie uważam, że wyjście FactoMineR jest bardziej „intuicyjne” (CA(tab, graph=FALSE)$row$contrib
daje ci bezpośrednio%).