Podsumowanie : Próba znalezienia najlepszej metody podsumowuje podobieństwo między dwoma wyrównanymi zestawami danych za pomocą jednej wartości.
Szczegóły :
Moje pytanie najlepiej wyjaśnić za pomocą diagramu. Poniższe wykresy pokazują dwa różne zestawy danych, każdy z wartościami oznaczonymi nf
i nr
. Punkty wzdłuż osi x reprezentują miejsce wykonania pomiarów, a wartości na osi y są wynikową zmierzoną wartością.
Dla każdego wykresu chcę, aby pojedyncza liczba podsumowała podobieństwo nf
i nr
wartości w każdym punkcie pomiarowym. W tym przykładzie jest wizualnie oczywiste, że wyniki na pierwszych wykresach są mniej podobne niż na drugim wykresie. Ale mam wiele innych danych, w których różnica jest mniej oczywista, więc pomocna byłaby możliwość uszeregowania tego ilościowo.
Pomyślałem, że mogą być stosowane standardowe techniki. Poszukiwanie podobieństwa statystycznego dało wiele różnych wyników, ale nie jestem pewien, co najlepiej wybrać lub czy rzeczy, które przygotowałem, dotyczą mojego problemu. Pomyślałem więc, że warto zadać to pytanie, na wypadek, gdyby istnieje prosta odpowiedź.
źródło
Odpowiedzi:
Różnica między dwiema krzywymi może dać ci różnicę. Stąd suma (nr-nf) (suma wszystkich różnic) będzie przybliżeniem obszaru między dwiema krzywymi. Jeśli chcesz uczynić go względnym, możesz użyć sum (nr-nf) / sum (nf). Otrzymasz jedną wartość wskazującą podobieństwo między 2 krzywymi dla każdego wykresu.
Edycja: Powyższa metoda sumy różnic będzie przydatna, nawet jeśli są to osobne punkty lub obserwacje, a nie połączone linie lub krzywe, ale w takim przypadku średnia różnic może być również wskaźnikiem i może być lepsza, ponieważ uwzględniałaby liczba obserwacji.
źródło
Musisz bardziej zdefiniować, co rozumiesz przez „podobieństwo”. Czy wielkość ma znaczenie? Czy tylko kształt?
Jeśli tylko kształt ma znaczenie, będziesz chciał znormalizować obie serie czasowe według ich wartości maksymalnej (więc oba mają wartość od 0 do 1).
Jeśli szukasz korelacji liniowej, prosta korelacja Pearsona będzie dobrze działać - co zasadniczo mierzy kowariancję.
Istnieją na przykład inne techniki, które mogłyby dopasować linię lub wielomian do szeregu czasowego (zasadniczo go wygładzając), a następnie porównać gładkie wielomiany.
Jeśli szukasz okresowego podobieństwa (tj. Szereg czasowy ma pewien składowy sinusoidalny lub sezonowość), rozważ zastosowanie rozkładu szeregów czasowych do trendu, a najpierw składowych sezonowych. Lub używając czegoś takiego jak FFT, aby porównać dane w dziedzinie częstotliwości.
To wszystko, co wiem bez większej definicji tego, co „podobne” powinno być. Mam nadzieję, że to pomoże.
źródło
Możesz użyć (nr-nf) dla każdego punktu pomiarowego, im mniejsza liczba (wartość bezwzględna), tym bardziej podobna wartość. Nie do końca najbardziej naukowe podejście, proszę wybacz mi, nie mam prawdziwego formalnego szkolenia w tym zakresie. Jeśli szukasz tylko numerycznej reprezentacji wizualnej, to powinno to zrobić.
źródło