Rozumiem, że analiza głównych składników (PCA) może być stosowana zasadniczo do danych przekrojowych. Czy PCA można skutecznie wykorzystać do danych szeregów czasowych, określając rok jako zmienną szeregu czasowego i normalnie uruchamiając PCA? Przekonałem się, że dynamiczny PCA działa dla danych panelu, a kodowanie w Stata jest przeznaczone dla danych panelu, a nie szeregów czasowych. Czy jest jakiś konkretny typ PCA, który działa na danych szeregów czasowych?
Aktualizacja. Pozwól mi wyjaśnić szczegółowo.
Obecnie buduję indeks dla infrastruktury w Indiach ze zmiennymi takimi jak długość drogi, długość trasy kolejowej, zdolność do wytwarzania energii elektrycznej, liczba abonentów telefonicznych itp. Mam 12 zmiennych przez 22 lata dla 1 kraju. Chociaż recenzowałem artykuły, które stosują PCA do szeregów czasowych, a nawet dane panelowe, PCA jest zaprojektowany dla danych przekrojowych, które zakładają iid. Dane paneli i przekrojów naruszają to, a PCA nie bierze pod uwagę wymiaru szeregów czasowych. Widziałem, jak dynamiczne PCA jest stosowane tylko na danych panelu. Chcę wiedzieć, czy istnieje konkretny PCA, który jest stosowany w szeregach czasowych lub z uruchomionym statycznym PCA z rokiem zdefiniowanym jako zmienna szeregów czasowych, wykona zadanie?
źródło
Odpowiedzi:
Jednym z podejść może być wzięcie pierwszych różnic czasowych z 12 zmiennych w celu zapewnienia stacjonarności. Następnie obliczyć macierz kowariancji 12 i wykonać na niej PCA. Będzie to jakaś średnia PCA w całym okresie czasu i nie powie nic o tym, jak różne timelagi wpływają na siebie. Ale może to być dobry punkt wyjścia.12 × 12
Jeśli jesteś zainteresowany rozkładem domeny czasu, sprawdziłbym SSA, jak sugerowano w komentarzach.
Kiedy serie są (zakładane) nieruchome, pojedyncza macierz kowariancji ma znaczenie. Jeśli twoje dane są zintegrowane rzędu 1 lub wyższego, jak podejrzewam, że mogą być, oszacowanie pojedynczej macierzy kowariancji nie przyniesie spójnych wyników. Losowy spacer jest na przykład zintegrowany z rzędem 1, a szacunkowa kowariancja dwóch losowych spacerów nie mówi nic o ich wspólnym ruchu, tutaj wspólnie integracja wymagana jest analiza.
Jak zasugerowano w komentarzach PCA sama w sobie nie dba o stacjonarność, więc można karmić PCA każdą pozytywną półokreśloną matrycą, a rozkład PC będzie w porządku w sensie PCA.
Ale jeśli twoja szacunkowa macierz kowariancji nie reprezentuje niczego znaczącego w danych, to PCA oczywiście również nie będzie.
źródło
Tak, PCA w szeregach czasowych odbywa się cały czas w inżynierii finansowej (finanse ilościowe) i neurologii.
W neurologii PCA przebiega w szeregach czasowych potencjałów czynnościowych w różnych pasmach fal uzyskanych z EEG. Przekształcanie potencjałów czynności w ortogonalne (nieskorelowane) wektory punktacji na PC i wprowadzanie komputerów do innych analiz jest głównym sposobem, za pomocą którego zwiększono moc statystyczną w statystycznym modelowaniu genetycznym złożonych cech genetyki behawioralnej (od fenotypów np. Bi-polarnych, nowość- szukanie, schizotypia, schozefrenia często się pokrywają). Duże australijskie badania genetycznych bliźniaków odegrały kluczową rolę w analizie tych nakładających się cech genetyki behawioralnej, ponieważ jeśli istnieją różnice chorobowe między identycznymi bliźniakami, które są hodowane razem (dorastają w tym samym gospodarstwie domowym), wnioskowanie przyczynowe może wskazywać na narażenie w różnych środowiskach, gdy byli starsi zamiast identycznej genetyki.
źródło