Posiadam zestaw danych dyskretnych (porządkowych, meristycznych i nominalnych) zmiennych opisujących morfologiczne charaktery skrzydeł na kilku blisko spokrewnionych gatunkach owadów. Chcę przeprowadzić jakąś analizę, która dałaby mi wizualną reprezentację podobieństwa różnych gatunków w oparciu o cechy morfologiczne. Pierwszą rzeczą, która wpadła mi do głowy, była PCA (jest to rodzaj wizualizacji, którą chcę stworzyć), ale po jej przeanalizowaniu (szczególnie inne pytania, takie jak: czy analizę głównych składowych można zastosować do zestawów danych zawierających ciągłe zestawienie i zmienne kategoryczne?), wydaje się, że PCA może być nieodpowiednia dla danych dyskretnych (PCA jest stosowana w tego rodzaju badaniach w literaturze, ale zawsze z ciągłymi danymi). Ignorując podłoże statystyczne, dlaczego te dane są nieodpowiednie, PCA daje mi stosunkowo doskonałe wyniki w odniesieniu do mojego pytania biologicznego (hybrydowe grupy interesów mieszczą się w samym środku ich grup ojcowskich).
Próbowałem też wielu analiz korespondencji, aby uspokoić statystyki (przynajmniej o ile rozumiem), ale nie wydaje mi się, aby uzyskać wykres analogiczny do tego, który uzyskałbym za pomocą PCA, w którym moje obserwacje (osoby biologiczne) są rozdzielone, powiedzmy kolorem, aby pokazać różne grupy (różne gatunki, mówiąc biologicznie). Wydaje się, że ta analiza ma na celu opisanie, w jaki sposób zmienne (tutaj, moje cechy morfologiczne) są ze sobą powiązane, a nie poszczególne obserwacje. A kiedy wykreślam obserwacje pokolorowane według grup, otrzymuję tylko jedną wartość (być może średnią) opisującą cały zestaw jednostek. Zrobiłem analizę w R, więc być może nie jestem też wystarczająco R-savy, aby mój pomysł na fabułę zadziałał.
Czy mam rację, próbując przeprowadzić tego rodzaju analizę z moimi danymi, czy też jestem na dobrej drodze? Jeśli nie możesz powiedzieć, moja wiedza statystyczna jest ograniczona, więc równania zachodzące pod tymi analizami są ponad moją głową. Próbuję przeprowadzić tę analizę w sposób całkowicie opisowy (nie muszę już robić dalszego podziału liczb) i przeczytałem, że w takim przypadku wystarczy PCA, ale chcę się upewnić, że nie jestem naruszając zbyt wiele założeń statystycznych.
Odpowiedzi:
Zależy to trochę od twojego celu, ale jeśli szukasz narzędzia do wizualizacji, istnieje sztuczka polegająca na zastosowaniu skalowania wielowymiarowego na wyjściu losowej bliskości lasu, które może wytwarzać ładne zdjęcia i będzie działać na mieszankę danych kategorycznych i ciągłych. Tutaj sklasyfikowałbyś gatunek według swoich predyktorów. Ale - i to jest duże zastrzeżenie - nie wiem, czy ktoś naprawdę wie, co oznaczają wyniki tych wizualizacji.
Inną alternatywą może być zastosowanie skalowania wielowymiarowego do czegoś takiego jak podobieństwo Gowera.
Wciąż pojawia się pytanie - jaki jest twój ostateczny cel? Na jakie pytanie chcesz odpowiedzieć? Lubię te techniki jako narzędzia badawcze, które być może prowadzą cię do zadawania coraz lepszych pytań, ale nie jestem pewien, co same wyjaśnią lub powiedzą.
Może za dużo czytam w twoim pytaniu, ale jeśli chcesz zbadać, które zmienne predykcyjne mają wartości dla hybryd leżących między dwoma czystymi gatunkami, być może lepiej zbudujesz model do oszacowania wartości zmiennych predykcyjnych, które prowadzą bezpośrednio do gatunku i mieszańców. Jeśli chcesz zmierzyć, w jaki sposób zmienne są ze sobą powiązane, być może zbuduj macierz korelacji - i istnieje wiele schludnych wizualizacji.
źródło