Co PCA robi z danymi autokorelowanymi?

9

Właśnie dlatego, że jakiś korespondent postawił interesujące pytanie dotyczące metod obliczania autokorelacji, zacząłem się nim bawić, prawie bez wiedzy o szeregach czasowych i autokorelacji.

Korespondent uporządkował swoje dane (32 punkty danych szeregu czasowego) przesunięte dodatkowo o jedno opóźnienie czasowe tak, że miał macierz 32×32 dane (tak jak go zrozumiałem), gdzie pierwszy wiersz to dane oryginalne, a drugi wiersz dane przesunięte 1jednostka czasu, następny rząd przez kolejny i tak dalej. Uświadomiłem sobie to dodatkowo, przyklejając koniec do ogona, tworząc w ten sposób „okrągłe” zestawy danych.

Następnie, po prostu patrząc na to, co może z tego wyniknąć, obliczyłem macierz korelacji i na tej podstawie główne składniki. Zaskakująco otrzymałem obraz rozkładu częstotliwości i (ponownie z innymi danymi) jedną częstotliwość, powiedzmy, że z jednym okresem w32 dane były w pierwszym głównym składniku, a te z czterema okresami były w drugim komputerze i tak dalej (mam 6 „odpowiednie” komputery z wartością własną >1). Najpierw myślałem, że to zależy od danych wejściowych, ale teraz zakładam, że jest to systematycznie w ten sposób dzięki specjalnej konstrukcji zestawu danych z jego przesunięciami kołowymi (znanymi również jako macierz „Toeplitz”). Obroty rozwiązania PC do varimax lub innych kryteriów obrotu dały nieco inne i być może interesujące wyniki, ale ogólnie wydaje się, że zapewniają taki rozkład częstotliwości.

Oto link do zdjęć, które zrobiłem z32-punktowy zestaw danych; krzywe są po prostu wykonane z obciążeń macierzy faktograficznej: jedna krzywa ładunków na jednym czynniku. Krzywa pierwszego PC1 powinna pokazywać najwyższe amplitudy (z grubsza, ponieważ zawiera największą sumę kwadratów obciążeń)

Pytania:

  • P1: Czy jest to funkcja z założenia? (PCA z tego typu zestawem danych)
  • P2: Czy to podejście rzeczywiście nadaje się w jakiś sposób do poważnego podejścia do analizy częstotliwości / długości fali?

[aktualizacja] tutaj jest zestaw danych (mam nadzieję, że wyjdzie on dla ciebie do skopiowania)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
Gottfried Helms
źródło
Dzięki @amoeba i za wiele edycji. Widziałem tylko dwa błędy, które chciałem później edytować, pytanie wygląda teraz o wiele ładniej!
Gottfried Helms

Odpowiedzi:

4

Pozwól mi przekształcić mój wcześniejszy komentarz w odpowiedź.

Czy wyobrażasz sobie, że wiersze w macierzy danych są zmiennymi lub próbkami? Zakładam, że są to próbki: tzn. Maszn=32 różne szeregi czasowe (próbki).

Więc jeśli wszystko n=32 rzędy są identyczne, ale tylko przesunięte kołowo o 1 ustaw każdy, a następnie n×nMacierz gramowa twoich danych składających się z iloczynów kropkowych między wszystkimi parami rzędów będzie miała strukturę Toeplitz: wysokie wartości zbliżone do przekątnej i stopniowo zmniejszające się do wartości zerowych od niej. Macierze Toeplitz mają kolejne tryby Fouriera, ponieważ ich wektory własne (i wektory własne macierzy Grama są głównymi składnikami, aż do skalowania), więc tak dla twojego Q1: nic dziwnego, że otrzymujesz fale sinusoidalne o rosnących częstotliwościach jak komputery PC.

Nie mam pojęcia, czy może być przydatny (Q2). Z mojego doświadczenia wynika, że ​​wydaje się być irytującym artefaktem. Tzn. Ludzie mają pewne dane, uzyskują z PCA coś przypominającego tryby Fouriera i zaczynają się zastanawiać, co mogą oznaczać, podczas gdy są po prostu spowodowane przesunięciami czasowymi w oryginalnej serii czasowej.

ameba
źródło
Cóż, bardzo miło, dzięki! Tak, myślałem, że dane wzdłuż wierszy. Pytanie 2 pojawia się również dlatego, że do dzisiaj nie rozumiałem, jak dokładnie działa analiza Fouriera - i przez przypadek mógł to być krok do uzyskania intuicji (ale ta niejasna nadzieja naprawdę wydaje się tutaj bezowocna ...)
Gottfried Helms
Nawiasem mówiąc, czy miałbyś coś przeciwko podzieleniu się swoją serią czasową o wartości 32? Chciałbym wstawić rysunek przedstawiający macierz Grama i mógłbym to zrobić bezpośrednio z twoimi danymi.
ameba
Widziałeś link w moim pytaniu? Przekierowuje na stronę internetową, którą utworzyłem za pomocą exce.l Ma 4 lub 5 podstron, które można wybrać za pomocą „firefox” w mojej instalacji za pomocą kliknięcia na pasku kart u dołu ekranu. Pierwsza podstrona pokazuje listę danych. Jednak w pionie: należy wziąć go jako pierwszy rząd w nowej tabeli i dodać 31 wierszy, gdy cykl jest w prawo. Jeśli jest to niewygodne, mogę również dodać dane do mojego pytania ...
Gottfried Helms
Och wow, nie zdawałem sobie sprawy, że to cały internetowy arkusz kalkulacyjny, a nie tylko zrzut ekranu! Dzięki.
ameba