Ilościowe podobieństwo między dwoma zestawami danych

12

Podsumowanie : Próba znalezienia najlepszej metody podsumowuje podobieństwo między dwoma wyrównanymi zestawami danych za pomocą jednej wartości.

Szczegóły :

Moje pytanie najlepiej wyjaśnić za pomocą diagramu. Poniższe wykresy pokazują dwa różne zestawy danych, każdy z wartościami oznaczonymi nfi nr. Punkty wzdłuż osi x reprezentują miejsce wykonania pomiarów, a wartości na osi y są wynikową zmierzoną wartością.

Dla każdego wykresu chcę, aby pojedyncza liczba podsumowała podobieństwo nfi nrwartości w każdym punkcie pomiarowym. W tym przykładzie jest wizualnie oczywiste, że wyniki na pierwszych wykresach są mniej podobne niż na drugim wykresie. Ale mam wiele innych danych, w których różnica jest mniej oczywista, więc pomocna byłaby możliwość uszeregowania tego ilościowo.

Pomyślałem, że mogą być stosowane standardowe techniki. Poszukiwanie podobieństwa statystycznego dało wiele różnych wyników, ale nie jestem pewien, co najlepiej wybrać lub czy rzeczy, które przygotowałem, dotyczą mojego problemu. Pomyślałem więc, że warto zadać to pytanie, na wypadek, gdyby istnieje prosta odpowiedź.

wprowadź opis zdjęcia tutaj

Gabriel Southern
źródło
1
Możesz spojrzeć na ten artykuł, który zawiera mnóstwo środków wymienionych. ( users.uom.gr/~kouiruki/sung.pdf ) Jeśli link nie działa, nazywa się „Kompleksowe badanie miar odległości / podobieństwa między funkcjami gęstości prawdopodobieństwa” Sung-Hyuka Cha w International Journal of Mathematical Models and Methods w Applied Science, która dokonuje przeglądu wielu podobieństw.
arie64
Dynamiczne dopasowanie czasowe służy do pomiaru podobieństwa między dwoma szeregami czasowymi. Ta technika może tutaj wykonać zadanie. Sprawdź ten link: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Odpowiedzi:

6

Różnica między dwiema krzywymi może dać ci różnicę. Stąd suma (nr-nf) (suma wszystkich różnic) będzie przybliżeniem obszaru między dwiema krzywymi. Jeśli chcesz uczynić go względnym, możesz użyć sum (nr-nf) / sum (nf). Otrzymasz jedną wartość wskazującą podobieństwo między 2 krzywymi dla każdego wykresu.

Edycja: Powyższa metoda sumy różnic będzie przydatna, nawet jeśli są to osobne punkty lub obserwacje, a nie połączone linie lub krzywe, ale w takim przypadku średnia różnic może być również wskaźnikiem i może być lepsza, ponieważ uwzględniałaby liczba obserwacji.

rnso
źródło
1
Spróbuję tego i zobaczę, jak to działa. Nadal mam nadzieję, że będę w stanie powiązać to z bardziej sformalizowaną techniką. Czytałem o odległości euklidesowej i wygląda na to, że jest bardzo podobna do techniki tutaj. Jako dodatkową uwagę, mimo że mój wykres ma linie łączące, dbam tylko o poszczególne punkty. Tak naprawdę nie porównuję krzywych, tylko zmierzone wartości. Nie wiem, czy było to jasne w moim pytaniu.
Gabriel Southern
Powinno działać, nawet jeśli punkty nie są połączone.
rnso
1

Musisz bardziej zdefiniować, co rozumiesz przez „podobieństwo”. Czy wielkość ma znaczenie? Czy tylko kształt?

Jeśli tylko kształt ma znaczenie, będziesz chciał znormalizować obie serie czasowe według ich wartości maksymalnej (więc oba mają wartość od 0 do 1).

Jeśli szukasz korelacji liniowej, prosta korelacja Pearsona będzie dobrze działać - co zasadniczo mierzy kowariancję.

Istnieją na przykład inne techniki, które mogłyby dopasować linię lub wielomian do szeregu czasowego (zasadniczo go wygładzając), a następnie porównać gładkie wielomiany.

Jeśli szukasz okresowego podobieństwa (tj. Szereg czasowy ma pewien składowy sinusoidalny lub sezonowość), rozważ zastosowanie rozkładu szeregów czasowych do trendu, a najpierw składowych sezonowych. Lub używając czegoś takiego jak FFT, aby porównać dane w dziedzinie częstotliwości.

To wszystko, co wiem bez większej definicji tego, co „podobne” powinno być. Mam nadzieję, że to pomoże.

użytkownik151975
źródło
0

Możesz użyć (nr-nf) dla każdego punktu pomiarowego, im mniejsza liczba (wartość bezwzględna), tym bardziej podobna wartość. Nie do końca najbardziej naukowe podejście, proszę wybacz mi, nie mam prawdziwego formalnego szkolenia w tym zakresie. Jeśli szukasz tylko numerycznej reprezentacji wizualnej, to powinno to zrobić.

Mike G.
źródło
1
Dzięki za Twoją sugestię. Też o tym myślałem, ale problem polega na tym, że będzie ona ważona raczej różnicą bezwzględną niż różnicą względną. W przykładzie podałem, że bardziej podobne zestawy danych miały również mniejsze wartości bezwzględne, ale jeśli sytuacja ulegnie odwróceniu, można uzyskać niepoprawną interpretację przy użyciu tej techniki. Muszę raczej podsumować względne podobieństwo / różnicę zamiast absolutnej różnicy.
Gabriel Southern
Czy (nr-nf) / nf będzie działać? To sprawi, że będziesz krewny. Naprawdę interesuje mnie prawdziwa odpowiedź, ponieważ osobiście mam do czynienia z taką samą sytuacją.
Mike G
Jeśli wszystkie są na porównywalnej skali, fakt, że podobne są generalnie niższe, nie dotyczy wartości względnych, lecz interpretacji podobieństwa. Gdyby wartości na drugim wykresie zawierały się w przedziale od 101-104, czy zmieniłoby to interpretację ich podobieństwa? Jeśli tak, musisz to wyjaśnić. Konieczne byłyby dalsze szczegóły na temat tego, czym dokładnie jest zmienna y.
John
@John, to dobra uwaga. Chyba muszę o tym więcej pomyśleć. Wartości y są wartościami przyspieszenia dla testu porównawczego i próbuję porównać podobieństwo między różnymi konfiguracjami. Sądzę więc, że sugestia zawarta w tej odpowiedzi może zadziałać. Mogę spróbować, aby zobaczyć, jak wyglądają liczby. Nadal wolałbym zastosować technikę statystyczną, która jest bardziej formalnie akceptowana (jeśli jest taka dla mojego problemu).
Gabriel Southern