Mam zestaw punktów danych w przestrzeni N-wymiarowej. Ponadto mam centroid w tej samej przestrzeni N-wymiarowej. Czy istnieją jakieś podejścia, które pozwalają mi rzutować te punkty danych w dwuwymiarową przestrzeń, zachowując informacje o odległości względnej w pierwotnej przestrzeni. Czy PCA jest poprawny?
data-visualization
pca
multidimensional-scaling
pytanie bitowe
źródło
źródło
Odpowiedzi:
Ogólna struktura, która rozwiązuje twój problem, nazywa się redukcją wymiarów. Chcesz rzutować dane z N wymiarów na 2 wymiary, zachowując jednocześnie „istotne informacje” w swoich danych. Najbardziej odpowiednia metoda zależy od rozkładu danych, tj. Kolektora N-wymiarowego. PCA zmieści samolot na podstawie kryterium najmniejszych kwadratów. Prawdopodobnie będzie to źle działać w przypadku przykładu „szwajcarskiej rolki”: szwajcarskiej rolki .
Bardziej nowoczesne metody obejmują jądro PCA, LLE, mapy dyfuzji i rzadkie reprezentacje słownika. Jeśli chodzi o zachowanie odległości, niektóre metody mogą zachować odległości inne niż euklidesowe.
źródło
Jak wspomniano w poprzedniej odpowiedzi, istnieje wiele metod redukcji wymiarów, a ważną rzeczą do rozważenia jest to, co próbujesz przedstawić - czy jesteś zainteresowany euklidesowymi pomiarami odległości? A może podobieństwo między próbkami?
W przypadku tych pierwszych PCA może być odpowiednie. Jest powszechnie stosowany do ciągłych pomiarów, takich jak pomiary próbek (zwierząt, roślin itp.). Chciałbym też przyjrzeć się bardziej nowoczesnym wzmiankom we wcześniejszej odpowiedzi.
W tym drugim przypadku, w którym możesz próbować porównać podobieństwo za pomocą nieeuklidesowej metryki odległości, istnieje kilka dobrych metod, takich jak zasada składowych zasad (PCoA) i niemetryczne skalowanie wielowymiarowe (NMDS). Przykładem, kiedy możesz z nich skorzystać, jest porównywanie społeczności ekologicznych między różnymi obszarami i liczba znalezionych rodzajów organizmów. Zatem twoje dane są danymi „zliczającymi”. Istnieje wiele wskaźników podobieństwa, takich jak Jaccard, Sorensen, Bray-Curtis, które skutecznie pozwalają oszacować, jak podobne są pod względem składu organizmów. PCoA i NMDS pozwalają w zasadzie wykreślić próbki (miejsca) w celu reprezentacji odległości ekologicznej (podobieństwa), a dla każdej osi masz wynik dla miejsca.
Istnieje wiele dobrych książek i innych zasobów do analizy wielowymiarowej. Wyszukaj „Święcenia” w Google. Ponadto istnieje pakiet R o nazwie „wegański”, który jest naprawdę dobry do wykonywania dużej ilości tej pracy.
źródło
Twój problem brzmi jak aplikacja podręcznika do wielowymiarowego skalowania . Dobre wprowadzenie można znaleźć tutaj: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Oczywiście możesz wypróbować PCA. Ale PCA nie ma zamiaru utrzymywać informacji o odległości względnej w pierwotnej przestrzeni.
źródło