W problemie, nad którym pracuję, mam dwie zmienne losowe, X i Y. Muszę dowiedzieć się, jak ściśle są ze sobą powiązane, ale mają one różne wymiary. Ranga przestrzeni wierszy X wynosi 4350, a ranga przestrzeni wierszy Y jest znacznie większa, w dziesiątkach tysięcy. Zarówno X, jak i Y mają tę samą liczbę kolumn.
Potrzebuję miary korelacji między dwiema zmiennymi, a r Pearsona wymaga, aby X i Y miały równy wymiar (przynajmniej R wymaga, aby były to dwa rv).
Czy mam nadzieję na korelację między tymi dwoma, czy też powinienem znaleźć jakiś sposób na obcięcie obserwacji z Y?
EDIT
Dodanie informacji z komentarzy, które powinny znajdować się w pytaniu.
Chyba zapomniałem o tym wspomnieć. X i Y są cenami akcji. Firma X jest publicznie dostępna od znacznie krótszego czasu niż Y. Chciałem powiedzieć, jak skorelowane są ceny X i Y. Zdecydowanie mógłbym uzyskać korelację dla okresu, w którym X i Y istnieją. Chciałem wiedzieć, czy znajomość cen akcji przez kilka dodatkowych lat Y, że X nie istniał, dostarczyła mi dodatkowych informacji.
źródło
Odpowiedzi:
Żadna imputacja, analiza szeregów czasowych, modele GARCH, interpolacja, ekstrapolacja ani inne wymyślne algorytmy nie zrobią nic, aby stworzyć informację tam, gdzie ona nie istnieje (chociaż mogą stworzyć tę iluzję ;-). Historia ceny Y, zanim X wszedł na giełdę, jest bezużyteczna do oceny ich późniejszej korelacji.
Czasami (często przygotowując się do debiutu giełdowego) analitycy wykorzystują wewnętrzne informacje księgowe (lub zapisy transakcji na prywatnych akcjach) do retrospektywnej rekonstrukcji hipotetycznych cen akcji X przed ich upublicznieniem. Można sobie wyobrazić, że takie informacje mogłyby zostać wykorzystane do zwiększenia szacunków korelacji, ale biorąc pod uwagę wyjątkowo niepewny charakter takich wstecznych prognoz, wątpię, by wysiłek był pomocny, z wyjątkiem początkowo, gdy dostępnych jest tylko kilka dni lub tygodni cen dla X.
źródło
Problemem jest więc brak danych (nie wszystkie Y mają odpowiedni X, gdzie korespondencja jest operacjonalizowana przez punkty czasowe). Nie sądzę, że jest tu wiele do roboty, niż po prostu wyrzucić Y, dla którego nie masz X i obliczyć korelację dla pełnych par.
Być może zechcesz poczytać o finansowych szeregach czasowych, chociaż w tym momencie nie mam dobrego podręcznika (pomysłów, ktoś?). Ceny akcji często wykazują zmienne w czasie zmienności, które można modelować np. Za pomocą GARCH . Można sobie wyobrazić, że twoje dwie serie czasowe X i Y wykazują dodatnie korelacje w okresach niskiej zmienności (gdy gospodarka rośnie, wszystkie ceny akcji zwykle rosną), ale ujemne korelacje, gdy ogólna zmienność jest wysoka (9/11, linie lotnicze zatankowały podczas gdy pieniądze uciekły na bezpieczniejsze inwestycje). Tak więc samo obliczenie ogólnej korelacji może być zbyt zależne od ram czasowych obserwacji.
AKTUALIZACJA: Myślę, że możesz chcieć spojrzeć na modele VAR (wektor autoregresyjny) .
źródło
@Jeromy Anglim podał to poprawnie. Posiadanie dodatkowych informacji, gdy istniał tylko jeden z szeregów czasowych, nie zapewniłoby tutaj żadnej wartości. Zasadniczo należy pobierać próbki danych w tym samym czasie, aby były one sensowne przy użyciu konwencjonalnych miar korelacji.
Jako bardziej ogólny problem dodam, że istnieją techniki radzenia sobie z nieregularnie rozmieszczonymi danymi szeregów czasowych. Możesz wyszukać „korelację szeregów czasowych o nieregularnych odstępach”. Niektóre z ostatnich prac zostały wykonane nad „Realizowaną zmiennością i korelacją” (Andersen, Bollerslev, Diebold i Labys 1999) przy użyciu danych o wysokiej częstotliwości.
źródło
Biorąc pod uwagę dodatkowe informacje w komentarzach, polecam przyjrzeć się dwóm korelacjom. Pierwszy to wspólne okresy, w których obie firmy były w pobliżu. Więc jeśli ktoś był około 2 lata wcześniej, po prostu upuściłbyś te dane i spojrzał na resztę. Drugi to względne okresy. W drugim nie korelujesz faktycznego czasu, ale czas mierzony od momentu upublicznienia firmy.
Na te pierwsze silny wpływ miałyby ogólne siły gospodarcze działające w tym samym okresie. Na te ostatnie miałyby wpływ nieruchomości wspólne dla firm, które zmieniają się po IPO.
źródło
Innym sposobem rozwiązania takiego problemu jest przypisanie brakujących danych dla krótszych szeregów przy użyciu modelu szeregów czasowych, który może, ale nie musi mieć sensu w określonym kontekście.
W twoim kontekście przypisywanie cen akcji w przeszłości oznaczałoby, że zadajesz następujące pytanie kontrfaktyczne: Jaka byłaby cena akcji dla spółki X, gdyby upubliczniła się n lat temu, a nie kiedy faktycznie stała się publiczna? Tego rodzaju imputacji danych można potencjalnie dokonać, biorąc pod uwagę ceny akcji powiązanych firm, ogólne trendy rynkowe itp. Jednak taka analiza może nie mieć sensu lub może nie być potrzebna, biorąc pod uwagę cele projektu.
źródło
Cóż, wiele zależy od twoich założeń. Jeśli założysz, że dane są nieruchome, to więcej danych dla pierwszej serii da ci lepsze oszacowanie ich zmienności. Szacunek ten można wykorzystać do poprawy oszacowania korelacji. Zatem następująca instrukcja jest niepoprawna:
„Historia ceny Y przed opublikowaniem X jest bezużyteczna dla oceny ich późniejszej korelacji”
źródło
Brzmi to jak problem dla algorytmu uczenia maszynowego. Dlatego starałbym się opracować zestaw funkcji opisujących pewien aspekt trendu i trenować na tym. Cała teoria uczenia maszynowego jest nieco skomplikowana w przypadku tej skrzynki odpowiedzi, ale warto ją przeczytać.
Ale szczerze mówiąc, myślę, że już istnieje. Tam, gdzie można zarabiać pieniądze, ludzie myślą o tym.
źródło