Chciałbym uzyskać poradę dotyczącą metody analizy, której używam, aby wiedzieć, czy jest ona statystycznie poprawna.
Zmierzyłem dwa procesy punktowe i i chcę ustalić jeśli zdarzenia w są w jakiś sposób skorelowane ze zdarzeniami w .
Jedną z metod, które znalazłem w literaturze, jest skonstruowanie histogramu korelacji krzyżowej: dla każdego znajdujemy opóźnienie dla wszystkich zdarzeń które przypadają w danym przedziale czasu (przed i po ), a następnie konstruujemy histogram wszystkich tych opóźnień.
Jeśli te dwa procesy nie są skorelowane, oczekiwałbym płaskiego histogramu, ponieważ prawdopodobieństwo wystąpienia zdarzenia w po (lub przed) zdarzeniu w jest równe przy wszystkich opóźnieniach. Z drugiej strony, jeśli na histogramie znajduje się pik, sugeruje to, że proces dwupunktowy w jakiś sposób wpływa na siebie (lub przynajmniej ma jakiś wspólny wkład).
To jest fajne i dobre, ale jak ustalić, czy histogramy mają szczyt (muszę powiedzieć, że dla mojego konkretnego zestawu danych są wyraźnie płaskie, ale nadal byłoby miło mieć statystyczny sposób potwierdzając to)?
Oto co zrobiłem: powtórzyłem proces generowania histogramu kilka razy (1000), utrzymując postaci i używając „potasowanej” wersji . Aby przetasować obliczam interwały między wszystkimi zdarzeniami, tasuję je i sumuję, aby odtworzyć nowy proces punktowy. W RI po prostu zrób to za pomocą:
times2.swp <- cumsum(sample(diff(times2)))
Tak więc otrzymuję 1000 nowych histogramów, które pokazują gęstość zdarzeń w porównaniu do .
Dla każdego przedziału tych histogramów (wszystkie są podzielone w ten sam sposób) obliczam gęstość 95% histogramu. Innymi słowy, mówię na przykład: w czasie opóźnienia 5 ms, w 95% procesów przetasowanego punktu istnieje prawdopodobieństwo x znalezienia zdarzenia w po zdarzeniu w .
Następnie wziąłbym tę wartość 95% dla wszystkich opóźnień czasowych i użyłem jej jako pewnego „limitu ufności” (prawdopodobnie nie jest to właściwy termin), aby wszystko, co przekroczy ten limit w oryginalnym histogramie, można uznać za „prawdziwe” szczyt".
Pytanie 1 : Czy ta metoda jest statystycznie poprawna? Jeśli nie, jak poradzisz sobie z tym problemem?
Pytanie 2 : inną rzeczą, którą chcę zobaczyć, jest to, czy istnieje „dłuższy” rodzaj korelacji moich danych. Na przykład mogą występować podobne zmiany w szybkości zdarzeń w procesach dwupunktowych (zauważ, że mogą mieć one zupełnie różne wskaźniki), ale nie jestem pewien, jak to zrobić. Myślałem o stworzeniu „obwiedni” każdego procesu punktowego przy użyciu pewnego rodzaju wygładzającego jądra, a następnie przeprowadzeniu analizy korelacji krzyżowej dwóch obwiedni. Czy możesz zasugerować inny możliwy rodzaj analizy?
Dziękuję i przepraszam za to bardzo długie pytanie.