Załóżmy, że mamy macierz danych , który jest -przez-i wektor etykiety , który jest -do-jednego. Tutaj każdy wiersz macierzy jest obserwacją, a każda kolumna odpowiada wymiarowi / zmiennej. (założyć)
Więc co data space
, variable space
, observation space
, model space
oznaczają?
Czy przestrzeń jest rozpięta przez wektor kolumny, a (zdegenerowana) -D przestrzeń, ponieważ ma współrzędne podczas rangi , nazywany przestrzenią zmienną, ponieważ jest rozpięty przez wektor zmienny? A może nazywa się to przestrzenią obserwacyjną, ponieważ każdy wymiar / współrzędna odpowiada obserwacji?
A co z przestrzenią rozpiętą przez wektory rzędowe?
regression
multiple-regression
terminology
geometry
biplot
użytkownik3813057
źródło
źródło
Odpowiedzi:
Warunki te pojawiają się w niektórych książkach dotyczących statystyk na wielu odmianach. Załóżmy, że masz
n
osoby wedługp
macierzy danych ilościowych funkcji. Następnie możesz narysować poszczególne osoby jako punkty w przestrzeni, w której osie są cechami. Będzie to klasyczny wykres rozrzutu, inaczej zmienna przestrzeń kosmiczna . Mówimy, że chmura jednostek obejmuje przestrzeń zdefiniowaną przez cechy osi.Równie dobrze można sobie wyobrazić wykres rozrzutu, w którym punkty są zmiennymi, a osie są jednostkami. Absolutnie jak poprzednie, tylko zawrotne. Będzie to wykres przestrzeni przedmiotowej (lub wykres przestrzeni obserwacyjnej) ze zmiennymi obejmującymi go, jednostki definiujące go.
Zauważ, że jeśli (jak często)1 . Ponadto, zgodnie z tradycją, zmienne punkty są zwykle związane z początkiem i dlatego pojawiają się jako wektory (strzałki). Używamy reprezentacji przestrzeni tematycznej głównie w celu pokazania związków między zmiennymi, dlatego upuszczamy osie-tematy i przedstawiamy punkty jako strzałki, dla wygody.
n>p
, to w drugim przypadku tylko niektórep
wymiary poza tymin
są nieistotne; oznacza to, że możesz i możesz rysowaćp
zmienne punkty nap
wykresie wymiarowymJeśli cechy (kolumny macierzy danych) zostały wyśrodkowane przed narysowaniem wykresu przestrzeni przedmiotowej, wówczas cosinusy kątów między wektorami zmiennymi są równe ich korelacjom Pearsona, podczas gdy długości wektora są równe normom zmiennych (suma pierwiastków kwadratów ) lub odchylenia standardowe (jeśli podzielone przez df ).
Przestrzeń zmienna i przestrzeń tematyczna są dwiema stronami tej samej monety, są tą samą przestrzenią analityczną euklidesową, przedstawiając się tylko lustrzanie. Dzielą te same właściwości, takie jak niezerowe wartości własne i wektory własne. Możliwe jest zatem wykreślenie zarówno podmiotów, jak i zmiennych obok siebie jako punktów w przestrzeni głównych osi (lub innej ortogonalnej podstawy) tej przestrzeni analitycznej - ten wspólny wykres nazywa się biplotem . Nie wiem dokładnie, co oznacza termin „przestrzeń danych” - jeśli oznacza to coś konkretnego, to przypuszczam, że jest to wspólna przestrzeń analityczna, której przestrzeń podmiotowa i zmienna są dwoma hipostazami.
Niektóre lokalne linki:
n=5
jednostki ip=2
zmienne i jakimś cudem udało ci się narysować 2 punkty w 5-wymiarowej przestrzeni. Następnie możesz obrócić podprzestrzeń zdefiniowaną przez dowolną 2 osie w taki sposób, aby osadzić 2 punkty (które odtąd obejmują tę płaszczyznę); po tym bezpiecznie upuszczasz pozostałe 3 osie (wymiary), ponieważ stały się niepotrzebne. Pozycja dwóch zmiennych punktów względem siebie została zachowana.źródło