Właśnie dlatego, że jakiś korespondent postawił interesujące pytanie dotyczące metod obliczania autokorelacji, zacząłem się nim bawić, prawie bez wiedzy o szeregach czasowych i autokorelacji.
Korespondent uporządkował swoje dane ( punkty danych szeregu czasowego) przesunięte dodatkowo o jedno opóźnienie czasowe tak, że miał macierz dane (tak jak go zrozumiałem), gdzie pierwszy wiersz to dane oryginalne, a drugi wiersz dane przesunięte jednostka czasu, następny rząd przez kolejny i tak dalej. Uświadomiłem sobie to dodatkowo, przyklejając koniec do ogona, tworząc w ten sposób „okrągłe” zestawy danych.
Następnie, po prostu patrząc na to, co może z tego wyniknąć, obliczyłem macierz korelacji i na tej podstawie główne składniki. Zaskakująco otrzymałem obraz rozkładu częstotliwości i (ponownie z innymi danymi) jedną częstotliwość, powiedzmy, że z jednym okresem w dane były w pierwszym głównym składniku, a te z czterema okresami były w drugim komputerze i tak dalej (mam „odpowiednie” komputery z wartością własną ). Najpierw myślałem, że to zależy od danych wejściowych, ale teraz zakładam, że jest to systematycznie w ten sposób dzięki specjalnej konstrukcji zestawu danych z jego przesunięciami kołowymi (znanymi również jako macierz „Toeplitz”). Obroty rozwiązania PC do varimax lub innych kryteriów obrotu dały nieco inne i być może interesujące wyniki, ale ogólnie wydaje się, że zapewniają taki rozkład częstotliwości.
Oto link do zdjęć, które zrobiłem z-punktowy zestaw danych; krzywe są po prostu wykonane z obciążeń macierzy faktograficznej: jedna krzywa ładunków na jednym czynniku. Krzywa pierwszego PC1 powinna pokazywać najwyższe amplitudy (z grubsza, ponieważ zawiera największą sumę kwadratów obciążeń)
Pytania:
- P1: Czy jest to funkcja z założenia? (PCA z tego typu zestawem danych)
- P2: Czy to podejście rzeczywiście nadaje się w jakiś sposób do poważnego podejścia do analizy częstotliwości / długości fali?
[aktualizacja] tutaj jest zestaw danych (mam nadzieję, że wyjdzie on dla ciebie do skopiowania)
-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
źródło
Odpowiedzi:
Pozwól mi przekształcić mój wcześniejszy komentarz w odpowiedź.
Czy wyobrażasz sobie, że wiersze w macierzy danych są zmiennymi lub próbkami? Zakładam, że są to próbki: tzn. Maszn=32 różne szeregi czasowe (próbki).
Więc jeśli wszystkon=32 rzędy są identyczne, ale tylko przesunięte kołowo o 1 ustaw każdy, a następnie n×n Macierz gramowa twoich danych składających się z iloczynów kropkowych między wszystkimi parami rzędów będzie miała strukturę Toeplitz: wysokie wartości zbliżone do przekątnej i stopniowo zmniejszające się do wartości zerowych od niej. Macierze Toeplitz mają kolejne tryby Fouriera, ponieważ ich wektory własne (i wektory własne macierzy Grama są głównymi składnikami, aż do skalowania), więc tak dla twojego Q1: nic dziwnego, że otrzymujesz fale sinusoidalne o rosnących częstotliwościach jak komputery PC.
Nie mam pojęcia, czy może być przydatny (Q2). Z mojego doświadczenia wynika, że wydaje się być irytującym artefaktem. Tzn. Ludzie mają pewne dane, uzyskują z PCA coś przypominającego tryby Fouriera i zaczynają się zastanawiać, co mogą oznaczać, podczas gdy są po prostu spowodowane przesunięciami czasowymi w oryginalnej serii czasowej.
źródło