Rozważ następujący wykres:
Czerwona linia (lewa oś) opisuje wolumen obrotu pewnymi akcjami. Niebieska linia (prawa oś) opisuje głośność wiadomości na Twitterze dla tego towaru. Na przykład 9 maja (05-09) dokonano około 1.100 milionów transakcji i 4.000 tweetów.
Chciałbym obliczyć, czy istnieje korelacja między przedziałami czasowymi, tego samego dnia lub z opóźnieniem - na przykład: wolumen tweet koreluje z wolumenem obrotu dzień później. Czytam wiele artykułów, które dokonały takiej analizy, na przykład Korelowanie finansowych szeregów czasowych z działalnością mikroblogowania , ale nie opisują one, jak taka analiza jest przeprowadzana w praktyce. W artykule podano, co następuje:
Mam jednak bardzo małe doświadczenie w analizie statystycznej i nie wiem, jak to zrobić w serii, którą posiadam. Używam SPSS (znanego również jako PASW), a moje pytanie brzmi: jakie kroki należy podjąć, aby dokonać takiej analizy od momentu, w którym plik danych leży u podstaw powyższego obrazu? Czy taki test jest funkcją domyślną (i jak się nazywa) i / lub w jaki sposób mógłbym go wykonać?
Każda pomoc byłaby bardzo mile widziana :-)
źródło
Odpowiedzi:
Dwa sprawdzenie normalności dwuwymiarowej sprawdź trzy rzeczy:
Aby sprawdzić normalność na każdym z tych kroków, użyj normalnych wykresów qq lub możesz użyć dowolnego testu hipotezy normalności.
Lub alternatywnie możesz sprawdzić, czy każda możliwa kombinacja liniowa (współczynniki rzeczywiste) dwóch serii jest marginalnie normalna. Prawdopodobnie byłoby to trudne.
Edycja: (6 lat później) będę wyżej dla potomności, ale należy pamiętać, że mają bardziej niedawnej odpowiedzi na podobne pytanie tutaj .
źródło
Współczynnik korelacji między szeregami czasowymi jest bezużyteczny. Zobacz WSPÓŁCZYNNIK KORELACJI - Wartości krytyczne dla testowania istotności . Po raz pierwszy zauważył to U. Yule w 1926 r. Yule, GU, 1926 r .: „Dlaczego czasami otrzymujemy nonsensowne korelacje między szeregami czasowymi? Badanie próbkowania i charakter szeregów czasowych”, Journal of Royal Statistics Society 89, 1 –64 . Możesz szukać w Google „dlaczego otrzymujemy nonsensowną korelację”, aby uzyskać więcej.
Powodem tego są testy korelacji wymagające wspólnej normalności. Wspólna normalność wymaga, aby każda seria była normalna. Normalność wymaga niezależności. Aby zbadać związek między szeregami czasowymi, przejrzyj Identyfikację funkcji przenoszenia w jakiejkolwiek dobrej książce o szeregach czasowych, takiej jak Analiza szeregów czasowych: Metody jedno- i wielowymiarowe, William WS Wei, David P. Reilly .
Odpowiedź na wyzwanie
Pod względem odpowiedzi na twoje wyzwanie. Niektórzy ( Yule, GU, 1926 ) dobrze wiedzą, że korelacja dwóch szeregów czasowych może być wadliwa, szczególnie jeśli na każdą z serii wpływają impulsy / przesunięcia poziomów / sezonowe i / lub lokalne trendy czasowe. W takim przypadku wziąłbym każdą z serii ODDZIELNIE i zidentyfikowałbym strukturę ARIMA oraz wszelkie impulsy / zmiany poziomu / sezonowe impulsy i / lub trendy czasu lokalnego, które mogą mieć zastosowanie i stworzyć proces błędu.
Przy dwóch czystych procesach błędów, po jednym dla każdej z dwóch oryginalnych serii, obliczałbym korelację krzyżową, która mogłaby następnie zostać użyta do pomiaru stopnia powiązania powyżej i poza strukturą autokorelacyjną w każdej serii. To rozwiązanie jest odpowiednio nazywane podwójnym wybielaniem wstępnym.
Widzieć:
źródło