Obecnie próbuję znaleźć „wartości odstające” w zbiorze danych. Biorąc pod uwagę zestaw cen produktów (w ramach kategorii produktów, np. Mleka) chcę filtrować według podejrzanych cen - na przykład mam zestaw cen mleka a następnie chcę filtrować według 10 i 0,1 . Problem polega na tym, że w różnych kategoriach produktów przedziały cenowe mogą się bardzo różnić - na przykład ryby: puszka tuńczyka i puszka kawioru, przeliczenie cen na 1 kg ma bardzo dużą różnicę w cenie.
Pytanie więc, jeśli ktoś z was zna model (matematyczny), aby opisać ceny w „podobnych” produktach - bardziej interesują mnie względne wnioski dotyczące cen niż bezwzględne, na przykład: nie jestem zainteresowany 1,5 euro za litr mleko za 1 euro za litr mleka, ale interesuje mnie „cena przedziału może mieć” w celu znalezienia podejrzanych cen.
Do tej pory pracowałem z empiryczną wartością oczekiwaną i odchyleniem standardowym, zakładając, że ceny są rozkładem logarytmiczno-normalnym i obliczałem przedziały 2 sigma i filtrowałem wszystkie ceny poza przedziałem 2 sigma. Daje to mniej więcej dobre wyniki, ale nie jest tak naprawdę satysfakcjonujące.