Winsorizing danych oznacza zastąpienie ekstremalnych wartości zestawu danych pewną wartością percentyla z każdego końca, natomiast przycinanie lub obcinanie wymaga usunięcia tych ekstremalnych wartości.
Zawsze widzę obie metody omawiane jako realną opcję zmniejszenia efektu wartości odstających podczas obliczania statystyk, takich jak średnia lub odchylenie standardowe, ale nie widziałem, dlaczego można wybrać jedną z nich.
Czy istnieją jakieś względne zalety lub wady korzystania z Winsorizing lub Trimingu? Czy istnieją sytuacje, w których jedna metoda byłaby lepsza? Czy używa się go częściej w praktyce, czy zasadniczo są one wymienne?
Odpowiedzi:
W innym, ale pokrewnym pytaniu na temat przycinania, które właśnie natknąłem się, jedna odpowiedź miała następujący pomocny wgląd w to, dlaczego można zastosować wygrywanie lub przycinanie:
Jestem ciekawy, czy istnieje bardziej ostateczne podejście, ale powyższa logika brzmi rozsądnie.
źródło
Dobre pytanie, które pojawia się bardzo często we wszystkich dziedzinach! W obu przypadkach usuwasz je technicznie ze zbioru danych.
Wiem, że powszechną praktyką jest graficzna próba znalezienia trendu w celu zastosowania formy obcięcia: wykorzystaj cały zestaw danych do celów kreślenia, ale następnie wyklucz ekstremalne wartości do interpretacji.
Problem z „wygrywaniem win” polega na tym, że dodawane przez Ciebie części są samouzupełniające, to znaczy pochodzą z samego zestawu danych, więc po prostu go obsługują. Istnieją proste problemy, jeśli spojrzysz na prace związane z walidacją krzyżową / klasyfikacją w uczeniu maszynowym, kiedy decydujesz, jak korzystać ze szkoleń i zestawów danych testowych.
W żadnym wypadku nie spotkałem się z ujednoliconym podejściem - zawsze dotyczy ono danych. Możesz spróbować dowiedzieć się, który percentyl twoje dane (wartości odstające) powodują dany procent zmienności / st. odchylenie i znajdź równowagę między zmniejszeniem tej zmienności, a zachowaniem jak największej ilości danych.
źródło
To dobre pytanie, z którym miałem do czynienia. W przypadkach, w których masz duży zestaw danych, a dokładniej bardzo zróżnicowany zestaw danych, w którym mniejszość wartości danych różni się w szerokim zakresie (ale mimo to należy je pokazać), a większość zestawu danych mieści się w wąskim paśmie, tak, że jeśli dane są wykreślane w stanie, w jakim się znajdują, szczegóły, w których większość danych leży, są tracone, a normalizacja lub standaryzacja nie wykazuje odpowiedniego zróżnicowania (przynajmniej wizualnie), lub zamiast tego wymagane są surowe dane, a następnie obcięcie lub wygrana ekstremalne wartości danych pomagają w lepszej wizualizacji danych.
źródło
Jedną z zalet Winsorizing jest to, że obliczenia mogą być bardziej wydajne. Aby obliczyć prawdziwą średnią obciętą, musisz posortować wszystkie elementy danych, a zwykle jest to . Istnieją jednak skuteczne sposoby obliczenia tylko 25% i 75% percentyli za pomocą algorytmu szybkiego wyboru, który zwykle jest . Jeśli znasz te punkty końcowe, możesz ponownie szybko zapętlić dane i zastąpić wartości mniejsze niż 25% wartością 25% i więcej niż 75% 75% i średnią. Jest to identyczne ze środkiem Winsora. Ale zapętlanie danych i tylko uśrednianie danych między wartością 25% a wartością 75% NIE jest identyczne ze średnią obciętą, ponieważ wartości 25% lub 75% mogą nie być wartością unikalną. Rozważ sekwencję danychO(nlogn) O(n) (1,2,3,4,4) . Średnia Winsor to . Prawidłowa skrócona średnia powinna wynosić . Średnia zoptymalizowana „szybka selekcja” będzie wynosić .(2+2+3+4+4)/5 (2+3+4)/3 (2+3+4+4)/4
źródło