Biorąc pod uwagę dwa histogramy, jak oceniamy, czy są one podobne, czy nie?
Czy wystarczy spojrzeć na dwa histogramy? Proste mapowanie jeden na jeden ma problem polegający na tym, że jeśli histogram jest nieco inny i nieznacznie przesunięty, nie uzyskamy pożądanego wyniku.
Jakieś sugestie?
histogram
image-processing
Mew 3.4
źródło
źródło
Odpowiedzi:
Ostatni artykuł, który może być wart przeczytania, to:
Cao, Y. Petzold, L. Ograniczenia dokładności i pomiar błędów w stochastycznej symulacji układów reagujących chemicznie, 2006.
Chociaż niniejszy artykuł koncentruje się na porównaniu stochastycznych algorytmów symulacyjnych, zasadniczo główną ideą jest porównanie dwóch histogramów.
Możesz uzyskać dostęp do pliku pdf ze strony autora.
źródło
Istnieje wiele miar odległości między dwoma histogramami. Dobrą kategoryzację tych środków można przeczytać w:
Najpopularniejsze funkcje odległości zostały wymienione tutaj dla Twojej wygody:
Implementacja Matlaba niektórych z tych odległości jest dostępna z mojego repozytorium GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Również można wyszukiwać facetów takich jak Yossi Rubner, Ofir Pele, Marco Cuturi i Haibin Ling dla więcej najnowocześniejszych odległości.
Aktualizacja: Alternatywne objaśnienie odległości pojawia się tu i tam w literaturze, dlatego wymieniam je tutaj w celu uzupełnienia.
źródło
hist1 < hist2
Standardową odpowiedzią na to pytanie jest test chi-kwadrat . Test KS dotyczy niepowiązanych danych, a nie binowanych danych. (Jeśli masz niepowiązane dane, to zdecydowanie skorzystaj z testu w stylu KS, ale jeśli masz tylko histogram, test KS nie jest odpowiedni.)
źródło
Szukasz testu Kołmogorowa-Smirnowa . Nie zapomnij podzielić wysokości paska przez sumę wszystkich obserwacji każdego histogramu.
Należy zauważyć, że test KS zgłasza także różnicę, jeśli np. Średnie rozkładów są przesunięte względem siebie. Jeśli tłumaczenie histogramu wzdłuż osi X nie ma znaczenia w Twojej aplikacji, możesz najpierw odjąć średnią z każdego histogramu.
źródło
Jak wskazuje odpowiedź Davida, test chi-kwadrat jest konieczny dla binowanych danych, ponieważ test KS zakłada ciągłe rozkłady. Jeśli chodzi o to, dlaczego test KS jest nieodpowiedni (komentarz naught101), w literaturze dotyczącej statystyki statystycznej dyskutowano na ten temat, który warto tutaj omówić.
Zabawna wymiana rozpoczęła się od stwierdzenia ( García-Berthou i Alcaraz, 2004 ), że jedna trzecia artykułów Nature zawiera błędy statystyczne. Jednak kolejny artykuł ( Jeng, 2006 , „ Błąd w testach statystycznych błędu w testach statystycznych ” - być może mój ulubiony tytuł pracy w historii) wykazał, że Garcia-Berthou i Alcaraz (2005) stosowali testy KS na dyskretnych danych do zgłaszania niedokładnych wartości pw meta-badaniu. Artykuł Jenga (2006) zapewnia miłą dyskusję na ten temat, a nawet pokazuje, że można zmodyfikować test KS, aby działał dla danych dyskretnych. W tym konkretnym przypadku rozróżnienie sprowadza się do różnicy między równomiernym rozkładem cyfry końcowej na [0,9], P(x)=1
źródło
Można obliczyć korelację krzyżową (splot) między dwoma histogramami. To weźmie pod uwagę niewielkie tłumaczenia.
źródło