Dyskretne dane i alternatywy dla PCA

Posiadam zestaw danych dyskretnych (porządkowych, meristycznych i nominalnych) zmiennych opisujących morfologiczne charaktery skrzydeł na kilku blisko spokrewnionych gatunkach owadów. Chcę przeprowadzić jakąś analizę, która dałaby mi wizualną reprezentację podobieństwa różnych gatunków w oparciu o cechy morfologiczne. Pierwszą rzeczą, która wpadła mi do głowy, była PCA (jest to rodzaj wizualizacji, którą chcę stworzyć), ale po jej przeanalizowaniu (szczególnie inne pytania, takie jak: czy analizę głównych składowych można zastosować do zestawów danych zawierających ciągłe zestawienie i zmienne kategoryczne?), wydaje się, że PCA może być nieodpowiednia dla danych dyskretnych (PCA jest stosowana w tego rodzaju badaniach w literaturze, ale zawsze z ciągłymi danymi). Ignorując podłoże statystyczne, dlaczego te dane są nieodpowiednie, PCA daje mi stosunkowo doskonałe wyniki w odniesieniu do mojego pytania biologicznego (hybrydowe grupy interesów mieszczą się w samym środku ich grup ojcowskich).

Próbowałem też wielu analiz korespondencji, aby uspokoić statystyki (przynajmniej o ile rozumiem), ale nie wydaje mi się, aby uzyskać wykres analogiczny do tego, który uzyskałbym za pomocą PCA, w którym moje obserwacje (osoby biologiczne) są rozdzielone, powiedzmy kolorem, aby pokazać różne grupy (różne gatunki, mówiąc biologicznie). Wydaje się, że ta analiza ma na celu opisanie, w jaki sposób zmienne (tutaj, moje cechy morfologiczne) są ze sobą powiązane, a nie poszczególne obserwacje. A kiedy wykreślam obserwacje pokolorowane według grup, otrzymuję tylko jedną wartość (być może średnią) opisującą cały zestaw jednostek. Zrobiłem analizę w R, więc być może nie jestem też wystarczająco R-savy, aby mój pomysł na fabułę zadziałał.

Czy mam rację, próbując przeprowadzić tego rodzaju analizę z moimi danymi, czy też jestem na dobrej drodze? Jeśli nie możesz powiedzieć, moja wiedza statystyczna jest ograniczona, więc równania zachodzące pod tymi analizami są ponad moją głową. Próbuję przeprowadzić tę analizę w sposób całkowicie opisowy (nie muszę już robić dalszego podziału liczb) i przeczytałem, że w takim przypadku wystarczy PCA, ale chcę się upewnić, że nie jestem naruszając zbyt wiele założeń statystycznych.

Powinieneś być w stanie uzyskać pożądany rodzaj fabuły dzięki wielokrotnej analizie korespondencji. Jeśli możesz podać nam link do swoich danych, możemy rzucić okiem. Skalowanie wielowymiarowe to kolejna możliwość, ale MCA można postrzegać jako rodzaj skalowania wielowymiarowego

kjetil b halvorsen

Klastrowanie klas ukrytych jest kolejną opcją metodologiczną. Zasadniczo LCA tworzy „model” niejednorodności w pozostałości, z którego wykorzystuje się klastry. Historycznie w literaturze istniały 2 szerokie nurty badawcze, oba socjologiczne. Oryginalny LCA pochodzi z Lazarsfeld w Kolumbii w latach 50., nie był nadzorowany i używał danych kategorycznych - poLCA R jest tego przykładem. Ostatnio opracowano nadzorowane modele mieszanki skończonej dla LCA. Nie znam modułów R, ale istnieje niedrogie oprogramowanie komercyjne, które to robi ( Latent Gold ). Witryna LG ma dobre artykuły na temat LCA

Mike Hunter,

Odpowiedzi:

Zależy to trochę od twojego celu, ale jeśli szukasz narzędzia do wizualizacji, istnieje sztuczka polegająca na zastosowaniu skalowania wielowymiarowego na wyjściu losowej bliskości lasu, które może wytwarzać ładne zdjęcia i będzie działać na mieszankę danych kategorycznych i ciągłych. Tutaj sklasyfikowałbyś gatunek według swoich predyktorów. Ale - i to jest duże zastrzeżenie - nie wiem, czy ktoś naprawdę wie, co oznaczają wyniki tych wizualizacji.

Inną alternatywą może być zastosowanie skalowania wielowymiarowego do czegoś takiego jak podobieństwo Gowera.

Wciąż pojawia się pytanie - jaki jest twój ostateczny cel? Na jakie pytanie chcesz odpowiedzieć? Lubię te techniki jako narzędzia badawcze, które być może prowadzą cię do zadawania coraz lepszych pytań, ale nie jestem pewien, co same wyjaśnią lub powiedzą.

Może za dużo czytam w twoim pytaniu, ale jeśli chcesz zbadać, które zmienne predykcyjne mają wartości dla hybryd leżących między dwoma czystymi gatunkami, być może lepiej zbudujesz model do oszacowania wartości zmiennych predykcyjnych, które prowadzą bezpośrednio do gatunku i mieszańców. Jeśli chcesz zmierzyć, w jaki sposób zmienne są ze sobą powiązane, być może zbuduj macierz korelacji - i istnieje wiele schludnych wizualizacji.

Patrick Caldon
źródło

Dziękuję za wkład. Ostatecznie wszystko, czego chcę od tej analizy, to mieć pewną ilościową miarę podobieństwa niektórych gatunków w porównaniu do innych (mam dwa gatunki, które na podstawie wyglądu gestaltu wyglądają jak inny blisko spokrewniony gatunek, ale genetycznie wyglądają podobnie do innego gatunku, sugerując starożytną hybrydyzację). Głównym celem tego pytania badawczego jest zbadanie genetyki grupy, a ta analiza morfologiczna po prostu wzbogaci całą historię biologiczną. Czy to wielowymiarowe skalowanie prowadziłoby do wizualizacji podobnej do PCA?

Otrzymujesz podobne wizualizacje. Ideą / intuicją MDS jest konstruowanie odwzorowania z przestrzeni o dużych wymiarach (dla ciebie przestrzeń cech morfologicznych) na jakąś przestrzeń o małych wymiarach (jak płaska płaszczyzna 2D) w taki sposób, że odległość w przestrzeni o dużych wymiarach jest „w zasadzie to samo ”, co niska przestrzeń dywersyjna. Następnie możesz wykreślić płaską płaszczyznę 2D. Ale to zależy od uzyskania gdzieś pomiaru odległości dla przestrzeni o dużych wymiarach.

Patrick Caldon,