Przestrzeń danych, przestrzeń zmiennych, przestrzeń obserwacji, przestrzeń modelu (np. W regresji liniowej)

9

Załóżmy, że mamy macierz danych X, który jest n-przez-pi wektor etykiety Y, który jest n-do-jednego. Tutaj każdy wiersz macierzy jest obserwacją, a każda kolumna odpowiada wymiarowi / zmiennej. (założyćn>p)

Więc co data space, variable space, observation space, model spaceoznaczają?

Czy przestrzeń jest rozpięta przez wektor kolumny, a (zdegenerowana) n-D przestrzeń, ponieważ ma n współrzędne podczas rangi p, nazywany przestrzenią zmienną, ponieważ jest rozpięty przez wektor zmienny? A może nazywa się to przestrzenią obserwacyjną, ponieważ każdy wymiar / współrzędna odpowiada obserwacji?

A co z przestrzenią rozpiętą przez wektory rzędowe?

użytkownik3813057
źródło
5
Nie są to powszechnie znane terminy. Czy masz referencje? Jeśli nie, możemy zgadywać, co mają na myśli.
whuber
1
Nie mam referencji. Kiedyś słyszałem, jak mój profesor to powiedział.
user3813057,
3
Jestem więc całkiem pewien, że twój profesor zdefiniował te warunki w pewnym momencie. Może są w notatkach z twojej klasy ...
whuber

Odpowiedzi:

14

Warunki te pojawiają się w niektórych książkach dotyczących statystyk na wielu odmianach. Załóżmy, że masz nosoby według pmacierzy danych ilościowych funkcji. Następnie możesz narysować poszczególne osoby jako punkty w przestrzeni, w której osie są cechami. Będzie to klasyczny wykres rozrzutu, inaczej zmienna przestrzeń kosmiczna . Mówimy, że chmura jednostek obejmuje przestrzeń zdefiniowaną przez cechy osi.

Równie dobrze można sobie wyobrazić wykres rozrzutu, w którym punkty są zmiennymi, a osie są jednostkami. Absolutnie jak poprzednie, tylko zawrotne. Będzie to wykres przestrzeni przedmiotowej (lub wykres przestrzeni obserwacyjnej) ze zmiennymi obejmującymi go, jednostki definiujące go.

Zauważ, że jeśli (jak często) n>p, to w drugim przypadku tylko niektóre pwymiary poza tymi nsą nieistotne; oznacza to, że możesz i możesz rysować pzmienne punkty na pwykresie wymiarowym1. Ponadto, zgodnie z tradycją, zmienne punkty są zwykle związane z początkiem i dlatego pojawiają się jako wektory (strzałki). Używamy reprezentacji przestrzeni tematycznej głównie w celu pokazania związków między zmiennymi, dlatego upuszczamy osie-tematy i przedstawiamy punkty jako strzałki, dla wygody.

Jeśli cechy (kolumny macierzy danych) zostały wyśrodkowane przed narysowaniem wykresu przestrzeni przedmiotowej, wówczas cosinusy kątów między wektorami zmiennymi są równe ich korelacjom Pearsona, podczas gdy długości wektora są równe normom zmiennych (suma pierwiastków kwadratów ) lub odchylenia standardowe (jeśli podzielone przez df ).

Przestrzeń zmienna i przestrzeń tematyczna są dwiema stronami tej samej monety, są tą samą przestrzenią analityczną euklidesową, przedstawiając się tylko lustrzanie. Dzielą te same właściwości, takie jak niezerowe wartości własne i wektory własne. Możliwe jest zatem wykreślenie zarówno podmiotów, jak i zmiennych obok siebie jako punktów w przestrzeni głównych osi (lub innej ortogonalnej podstawy) tej przestrzeni analitycznej - ten wspólny wykres nazywa się biplotem . Nie wiem dokładnie, co oznacza termin „przestrzeń danych” - jeśli oznacza to coś konkretnego, to przypuszczam, że jest to wspólna przestrzeń analityczna, której przestrzeń podmiotowa i zmienna są dwoma hipostazami.

wprowadź opis zdjęcia tutaj

Niektóre lokalne linki:

  • Zdjęcia przedstawiające reprezentację głównych elementów (PCA) w przestrzeni przedmiotowej , regresję liniową i analizę czynnikową , ponownie regresję . Porównaj to z tradycyjną reprezentacją regresji i PCA w zmiennej przestrzeni (wykres rozproszenia) .
  • Teoretyczne wyjaśnienie biplota . Jedno samodzielne badanie wyjaśniające strukturę biplota w PCA .
  • Zobacz także post próbujący dowiedzieć się, czy można geometrycznie rozwiązać zadanie PCA na wykresie przestrzeni przedmiotowej (wydaje się, że komputery definiują elipsę; ale jak znaleźć tę unikalną elipsę?).

1Wyobraź sobie, że masz n=5jednostki i p=2zmienne i jakimś cudem udało ci się narysować 2 punkty w 5-wymiarowej przestrzeni. Następnie możesz obrócić podprzestrzeń zdefiniowaną przez dowolną 2 osie w taki sposób, aby osadzić 2 punkty (które odtąd obejmują tę płaszczyznę); po tym bezpiecznie upuszczasz pozostałe 3 osie (wymiary), ponieważ stały się niepotrzebne. Pozycja dwóch zmiennych punktów względem siebie została zachowana.

ttnphns
źródło
2
+1. Nie jestem jednak pewien, jakie jest dokładne matematyczne znaczenie powiedzenia, że ​​zmienna i przestrzeń przedmiotowa są „tą samą euklidesową przestrzenią analityczną”.
ameba
3
@amoeba, nie będąc matematycznym w odpowiedzi, miałem nadzieję, że jest intuicyjnie przejrzysty (szczególnie dla ekspertów algebry liniowej, takich jak ty). Na przykład w dekompozycji wartości w liczbie pojedynczej macierzy danych (svd, na której oparty jest biplot) - jaką przestrzeń charakteryzują wartości własne oraz lewy i prawy wektor własny? Czy nie jest to ta sama przestrzeń analityczna, którą można ułożyć na różne sposoby - wśród których znajdują się (i) rzędy i kolumny jako punkty głównych osi jako osi; (ii) wiersze jako punkty, kolumny jako osie; (iii) kolumny jako punkty po wierszach jako osie?
ttnphns