Zamieniając wartości odstające na średnie

31

To pytanie zadał mój przyjaciel, który nie jest obeznany z Internetem. Nie mam statystyk i szukałem w Internecie tego pytania.

Pytanie brzmi: czy możliwe jest zastąpienie wartości odstających wartością średnią? jeśli to możliwe, czy są jakieś odniesienia do książek / czasopisma, na których można sporządzić kopię tego oświadczenia?

mean outliers robust winsorizing Alun
źródło

25

Z pewnością można to zrobić, ale trudno sobie wyobrazić sytuację, w której ma to sens.

Peter Flom - Przywróć Monikę

2

Już kilka dłuższych odpowiedzi, ale podsumowanie jednego zdania @Peter Flom raczej nie będzie pasowało jako podsumowanie.

Nick Cox

4

Żadna odpowiedź nie wskazała jeszcze słonia w pokoju: chociaż zastąpienie „wartości odstających” środkiem pozwala zachować średni zbiór danych, zmienia prawie każdą inną statystykę. Zmienia nawet szacunki błędu standardowego średniej. W związku z tym - na poparcie komentarza @Peter Flom - wynikowy zestaw danych nie wydaje się przydatny w żadnej wiarygodnej formie wnioskowania. (Można sobie wyobrazić, że nie można go stosować samodzielnie, ale w pośrednich etapach iteracyjnej procedury identyfikowania wartości odstających, wyjaśniając w ten sposób, dlaczego taka procedura może istnieć w pierwszej kolejności.)

whuber

1

@whuber Najwyraźniej kluczowy punkt. Zrobiłbym to w kolejną odpowiedź, aby nikt jej nie przegapił zbyt szybko czytając ten wątek. Ludzie kuszeni tym urządzeniem i najwyraźniej są tacy, muszą zdać sobie sprawę, że to (a) nie jest dobry pomysł (b) zły pomysł.

Nick Cox,

1

@ user2357112 Implikacja jest taka, że średnia, którą należy zastosować, jest średnią z innych wartości. Wartość odstająca, uważana za niewiarygodną, nie powinna być uwzględniana w obliczeniach.

Nick Cox,

41

Oczywiście jest to możliwe, ale nie jest jasne, czy to może być dobry pomysł.

Wyjaśnijmy kilka sposobów, w jakie jest to ograniczone lub wadliwe rozwiązanie:

W efekcie mówisz, że wartość odstająca jest całkowicie niewiarygodna, do tego stopnia, że jedyne możliwe przypuszczenie, że wartość powinna być średnią. Jeśli tak myślisz, prawdopodobnie bardziej uczciwe będzie pominięcie danej obserwacji, ponieważ najwyraźniej nie masz wystarczającej ilości informacji, aby lepiej zgadywać.
Nie mówiąc nic więcej, potrzebujesz kryterium lub kryteriów identyfikowania wartości odstających w pierwszej kolejności (jak sugeruje @Frank Harrell). W przeciwnym razie jest to arbitralna i subiektywna procedura, nawet jeśli jest broniona w drodze osądu. Przy niektórych kryteriach możliwe jest, że usunięcie wartości odstających w ten sposób tworzy jeszcze więcej wartości odstających jako efekt uboczny. Przykładem może być to, że wartości odstające to więcej niż tyle standardowych odchyleń od średniej. Usunięcie wartości odstającej zmienia odchylenie standardowe, a nowe punkty danych mogą się teraz kwalifikować i tak dalej.
Przypuszczalnie średnia tutaj oznacza średnią wszystkich pozostałych wartości, punkt wyraźnie wyrażony przez @Davida Marksa. Pomysł jest dwuznaczny bez tego warunku.
Korzystanie ze średniej może wydawać się bezpieczną lub zachowawczą procedurą, ale zmiana wartości na średnią zmieni prawie każdą inną statystykę, w tym miary poziomu, skali i kształtu oraz wskaźniki ich niepewności, co podkreśla @whuber.
Średnia może nawet nie być wykonalną wartością: prostymi przykładami są wartości całkowite, ale zazwyczaj średnia nie jest liczbą całkowitą.
Nawet przy założeniu, że stosowanie miary podsumowującej jest ostrożne, używanie raczej średniej niż mediany lub jakiejkolwiek innej miary wymaga pewnego uzasadnienia.
Ilekroć istnieją inne zmienne, modyfikowanie wartości jednej zmiennej bez odniesienia do innych może spowodować, że punkt danych będzie anomalny w innych zmysłach.

Co zrobić z wartościami odstającymi to pytanie otwarte i bardzo trudne. Luźno różne rozwiązania i strategie mają różny urok. Oto częściowa lista możliwości. Zamówienie jest arbitralne i nie ma na celu przekazania żadnego zamówienia pod względem stosowalności, znaczenia lub jakiegokolwiek innego kryterium. Podejścia te nie wykluczają się wzajemnie.

Jedną (moim zdaniem dobrą) definicją jest to, że „[o] utliers to wartości próbki, które powodują zaskoczenie w stosunku do większości próbki” (WN Venables i BD Ripley. 2002. Nowoczesne statystyki stosowane z S. New York: Springer, s.119). Jednak niespodzianka jest w umyśle obserwatora i zależy od jakiegoś milczącego lub jawnego modelu danych. Może istnieć inny model, w którym wartość odstająca wcale nie jest zaskakująca, więc dane naprawdę są (powiedzmy) logarytmiczne lub gamma, a nie normalne. Krótko mówiąc, bądź przygotowany na (ponowne) rozważenie swojego modelu.
Idź do laboratorium lub na pole i ponownie wykonaj pomiar. Często nie jest to możliwe, ale w niektórych naukach wydaje się to standardem.
Sprawdź, czy wartości odstające są prawdziwe. Większość testów wygląda mi na wymyśloną, ale możesz znaleźć taki, który według ciebie pasuje do twojej sytuacji. Irracjonalna wiara, że test jest odpowiedni, jest zawsze potrzebna do zastosowania testu, który jest następnie przedstawiany jako kwintesencjonalnie racjonalny.
Wyrzuć je jako sprawę.
Wyrzuć je, używając mniej więcej automatycznej (zwykle nie „obiektywnej”) reguły.
Zignoruj je, częściowo lub całkowicie. Może to być formalne (np. Przycinanie) lub tylko kwestia pozostawienia ich w zbiorze danych, ale pomijanie ich w analizach jako zbyt gorących, aby sobie z nimi poradzić.
Przyciągnij je, używając pewnego rodzaju regulacji, np. Winsorizing.
Odrzuć je, używając innej niezawodnej metody szacowania.
Lekceważ je, pracując w przekształconej skali.
Lekceważenie ich przy użyciu funkcji linku niebędącego tożsamością.
Dostosuj je, dopasowując odpowiedni rozkład tłuszczów, długich lub grubych ogonów, bez predyktorów lub z predyktorami.
Dostosuj, używając zmiennej wskaźnikowej lub obojętnej jako dodatkowego predyktora w modelu.
Przejdź na bok problem, stosując procedurę nieparametryczną (np. Opartą na rankingu).
Zdobądź kontrolę nad domniemaną niepewnością za pomocą ładowania początkowego, jackknifingu lub procedury opartej na permutacji.
Edytuj, aby zamienić wartość odstającą na bardziej prawdopodobną wartość, w oparciu o logikę deterministyczną. „18-letnia babcia jest mało prawdopodobna, ale dana osoba urodziła się w 1932 r., Więc prawdopodobnie ma 81 lat”.
Edytuj, aby zastąpić niemożliwą lub nieprawdopodobną wartość odstającą, używając metody imputacji, która jest obecnie akceptowalną niezupełnie białą magią.
Przeanalizuj zi bez, i zobacz, jaką różnicę powodują wartości odstające, statystycznie, naukowo lub praktycznie.
Coś Bayesowskiego. Moja wcześniejsza niewiedza co do tego, co zabrania podawania jakichkolwiek szczegółów.

EDYCJA To drugie wydanie korzysta z innych odpowiedzi i komentarzy. Próbowałem oflagować źródła inspiracji.

Nick Cox
źródło

1

(+1) ładna odpowiedź. Po stronie bayesowskiej można zrobić wiele rzeczy, ale w efekcie próbujesz zbudować jakiś model tego, jak uzyskałeś takie wartości (proces, który doprowadził do wartości odstającej). Na przykład może to być coś prostego, na przykład: „każda wartość danych ma pewne małe nieznane prawdopodobieństwo, że pochodzi z rozkładu, który jest znacznie bardziej dziki niż większość danych”, a następnie stawia wcześniejszy rozkład tego prawdopodobieństwa i formalizuje pewien wybór dla tego dzikiego dystrybucja i priorytety dla jego parametrów. Efektem jest zmniejszenie obciążenia punktów, które nie pasują do modelu.

Glen_b

16

Istnieje kilka problemów sugerowanych przez twoje pytanie.

Co to jest „wartość odstająca”?
Czy należy wymienić „wartość odstającą”?
Czym wyróżnia się średnia w porównaniu z innymi szacunkami?
Jak zrekompensowałbyś zwiększenie pozornej wariancji po zastąpieniu jedną wartością, która powoduje, że wariancja jest zbyt mała?
Dlaczego nie zastosować solidnych estymatorów odpornych na wartości odstające?
Czy jest to zmienna niezależna czy zależna?

Żaden z 1-5 nie ma oczywistej odpowiedzi. Jeśli naprawdę uważasz, że te „wartości odstające” są błędne i nie chcesz korzystać z solidnej metody statystycznej, możesz je pominąć i zastosować wielokrotne przypisywanie jako jedno z możliwych rozwiązań. Jeśli zmienna jest zmienną zależną, jednym solidnym wyborem jest regresja porządkowa.

Frank Harrell
źródło

1

+1, dobre punkty. Intryguje mnie sugestia OLR; czy istnieje powód, dla którego wolisz korzystać z solidnej funkcji utraty, takiej jak bisquare Tukeya?

gung - Przywróć Monikę

2

Regresja porządkowa jest prawdopodobnie nieco bardziej niezawodna i pozwala oszacować dobrze zdefiniowane wielkości: średnie, kwantyle i prawdopodobieństwa. Ponadto masz całą moc współczynnika wiarygodności, Wald i testy punktowe oraz przedziały ufności. Oszacowania mediany i średniej w regresji porządkowej nie są zbędne, tj. Nie są trywialnie powiązane, ale mogą „unosić się” z powodu mniejszej liczby założeń dystrybucyjnych.

Y

$Y$

Y

$Y$

Frank Harrell,

9

Propozycja ma wiele wad. Oto chyba największy.

Załóżmy, że gromadzisz dane i widzisz te wartości:

2, 3, 1

$2, 3, 1$

Jak dotąd średnia wynosi . $6/3 = 2$

Potem pojawia się wartość odstająca:

2, 3, 1, 1000

$2, 3, 1, 1000$

Więc zastępujesz go średnią:

2, 3, 1, 2

$2, 3, 1, 2$

Następny numer jest dobry:

2, 3, 1, 2, 7

$2, 3, 1, 2, 7$

Teraz średnia wynosi 3. Poczekaj minutę, średnia wynosi teraz 3, ale zastąpiliśmy 1000 średnią 2, tylko dlatego, że wystąpiła jako czwarta wartość. Co jeśli zmienimy kolejność próbek?

2, 3, 1, 7, 1000

$2, 3, 1, 7, 1000$

Teraz średnia przed 1000 to . Czy więc powinniśmy zastąpić 1000 tym środkiem? $(2 + 3 + 1 + 7)/4 = 13/4$

Problem polega na tym, że fałszywe dane, które podstawiamy zamiast 1000, zależą od innych danych. Jest to problem epistemologiczny, jeśli próbki mają reprezentować niezależne pomiary.

Masz wtedy oczywisty problem, że nie tylko ukrywasz dane, które nie pasują do twoich założeń, ale fałszujesz je. Gdy wystąpi jakiś niepożądany wynik, zwiększasz i zastępujesz fałszywą wartość. Jest to błędne, ponieważ ma być liczbą próbek. Teraz reprezentuje liczbę próbek plus liczbę wartości krówek dodanych do danych. Zasadniczo niszczy to ważność wszystkich obliczeń obejmujących : nawet te, które nie używają wartości krówki. Twoje jest również wartością krówki! $n$ $n$ $n$ $n$ $n$

Zasadniczo, przycinanie wyników, które nie pasują, to jedno (i może być uzasadnione, jeśli jest wykonywane konsekwentnie zgodnie z algorytmem, a nie zgodnie ze zmieniającymi się wahaniami nastroju eksperymentatora).

Bezpośrednie fałszowanie wyników budzi zastrzeżenia z powodów filozoficznych, epistemologicznych i etycznych.

Mogą występować pewne okoliczności łagodzące, które mają związek z tym, jak wykorzystywane są wyniki. Powiedzmy na przykład, że to zastąpienie wartości odstających obecną średnią jest częścią algorytmu wbudowanego komputera, który umożliwia mu implementację zamkniętego układu sterowania. (Próbkuje niektóre dane wyjściowe systemu, a następnie dostosowuje dane wejściowe w celu uzyskania kontroli.) Wszystko odbywa się w czasie rzeczywistym, więc coś należy dostarczyć na określony czas w miejsce brakujących danych. Jeśli to kręcenie pomaga przezwyciężyć usterki i zapewnia płynną pracę, to wszystko jest dobrze.

Oto kolejny przykład z telefonii cyfrowej: PLC (ukrywanie utraty pakietów). Bzdury się zdarzają i pakiety gubią się, ale komunikacja odbywa się w czasie rzeczywistym. PLC syntetyzuje fałszywe głosy na podstawie ostatnich informacji o wysokości dźwięku z poprawnie odebranych pakietów. Więc jeśli mówca powiedział samogłoskę „aaa”, a następnie pakiet został utracony, PLC może uzupełnić brakujący pakiet przez ekstrapolację „aaa” na czas trwania ramki (powiedzmy 5 lub 10 milisekund lub cokolwiek innego). „Aaa” jest takie, że przypomina głos mówiącego. Jest to analogiczne do używania „środka” w celu zastąpienia wartości uważanych za złe. To dobra rzecz; jest lepszy niż dźwięk włączany i wyłączany oraz pomaga w zrozumieniu.

Jeśli fałszowanie danych jest częścią programu okłamywania ludzi, aby ukryć nieudaną pracę, to coś innego.

Nie możemy więc myśleć o tym niezależnie od aplikacji: w jaki sposób wykorzystywane są statystyki? Czy zamiany doprowadzą do nieważnych wniosków? Czy są implikacje etyczne?

Zaraz
źródło

Historia telefonii jest bardzo interesująca, ale wydaje się, że kwestią interpolacji, którą można zastąpić, jest brakująca wartość. Związek z zamianą wartości odstających jest niepewny, ponieważ potrzebne są tylko operacje wyłącznie lokalne, a lokalne zmiany są wtórne do „analizy” całego zestawu danych.

Nick Cox

2

Wiele ciekawych pomysłów tutaj (+1). Należy jednak pamiętać, że procedura wymiany niekoniecznie musi być sekwencyjna. Można zidentyfikować wszystkie „wartości odstające” naraz i zastąpić je wszystkimi pozostałymi. Jest to spójna procedura, podobnie jak Winsorizing.

whuber

6

W tym artykule Cousineau i Chartiera omawia zastąpienie wartości odstających średnią

http://www.redalyc.org/pdf/2990/299023509004.pdf

Piszą:

Tabachnick i Fidell (2007) zasugerowali zastąpienie brakujących danych średnią pozostałych danych w odpowiedniej komórce. Jednak ta procedura będzie miała tendencję do zmniejszania rozprzestrzeniania się populacji, sprawi, że obserwowany rozkład będzie bardziej leptokurtyczny i prawdopodobnie zwiększy prawdopodobieństwo błędu typu I. Bardziej skomplikowana technika, wielokrotne przypisywanie, polega na zastąpieniu wartości odstających (lub brakujących danych) możliwymi wartościami (Elliott i Stettler, 2007; Serfling i Dang, 2009).

Istnieje również pakiet „wartości odstające” pakietu R, który ma funkcję zastępowania wartości odstających wartością średnią. W mojej wyszukiwarce Google widziałem także kilka trafień, które sugerują, że SPSS ma również taką funkcję, ale nie znam tego programu. Być może podążając za wątkami, możesz odkryć techniczne podstawy praktyki.

Referencje

Cousineau, D. i Chartier, S. (2010). Wykrywanie i leczenie wartości odstających: przegląd. International Journal of Psychological Research, 3 (1), 58-67.

Tomasz
źródło

Przeszukałem twoje odniesienie w celu znalezienia wszystkich wystąpień słowa „wredny” i nie mogłem znaleźć miejsca, w którym omawiałoby to zastąpienie wartości odstających średnią. Jeśli coś przeoczyłem, czy mógłbyś wskazać dokładniej, gdzie odbywa się ta dyskusja?

whuber

1

Zmieniłem link, ponieważ nie mogłem go uruchomić. Na stronie 9 dokumentu autor mówi: „Wartości odstające, które są wyraźnie wynikiem fałszywej aktywności, powinny zostać usunięte. Jednak w projektach wielowymiarowych może to spowodować usunięcie zbyt wielu uczestników do tego stopnia, że analizy nie można już wykonać Tabachnick i Fidell (2007) zasugerowali zastąpienie brakujących danych średnią pozostałych danych w odpowiedniej komórce. ”

Thomas

2

Dzięki: Widzę to teraz. Jednak opisanie tego jako „dyskusji” - co sugeruje, że może istnieć pewna równowaga za i przeciw - może być nieco mylące, ponieważ w tym fragmencie wspomniano o procedurze substytucji średniej (a) tylko dla aplikacji wielowymiarowych i (b) wyłącznie aby wskazać jego wady, kończąc z sugestią rozważenia wielokrotnego przypisania. (Co ciekawe, odniesienie do tej procedury nie pojawia się nawet w bibliografii.)

whuber

5

Tak, to dziwne, że cytowane odniesienie nie znajduje się na szelkach. Wydaje się, że jest to książka „Projekty eksperymentalne z wykorzystaniem ANOVA”. Próbowałem odpowiedzieć na pierwotną prośbę i podać odniesienia do praktyki zastępowania średniej wartości odstających. Ten artykuł był wszystkim, co mogłem znaleźć podczas szybkiego wyszukiwania i miałem nadzieję, że dostarczy on potencjalnych klientów, aby PO mógł znaleźć bardziej kompletną odpowiedź.

Thomas

4

Najważniejszą rzeczą, o której należy pamiętać w przypadku wartości odstających, jest to, czy dostarczają one użytecznych informacji. Jeśli spodziewasz się, że będą występować regularnie, usunięcie ich z danych zagwarantuje, że Twój model nigdy ich nie przewidzi. Oczywiście zależy to od tego, co chcesz zrobić, ale warto pamiętać, że nie należy ich upuszczać. Jeśli zawierają ważne informacje, możesz rozważyć model, który może je uwzględnić. Jednym, prostym sposobem na to jest pobranie logów zmiennych, które mogą uwzględniać relacje prawa mocy. Alternatywnie możesz użyć modelu, który je rozlicza, z grubym rozkładem błędów.

Jeśli chcesz je wyciąć, zwykłe sposoby to upuścić lub Winsorise , aby usunąć skrajne wartości. Nie mam pod ręką podręcznika, ale linki do Wiki tam odnoszą się do niektórych, jeśli chcesz przeczytać dalej. Większość tekstów na temat stosowanych statystyk powinna zawierać sekcję dotyczącą wartości odstających.

jmz
źródło

3

Mam świadomość dwóch podobnych podobnych podejść w statystykach.

Trimmed oznacza: obliczając średnią, pomijasz najmniejsze i największe obserwacje swoich danych (np. Górny i dolny każdy; powinieneś to zrobić symetrycznie!) $1%$
Winsorization: podobnie jak średnia obcięta, modyfikujesz tylko ekstremalne obserwacje. Jednak zamiast upuszczać je, zastępujesz je największą / najmniejszą obserwacją nie-ekstremalną. Często działa to nieco lepiej niż przycinanie.

Aby uzyskać bardziej szczegółowe przykłady, patrz Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Pamiętaj, że działa to dobrze w przypadku niektórych statystyk, na przykład podczas obliczania średniej. Średnia obcięta / wygrana jest często lepszym oszacowaniem prawdziwej średniej niż średnia artihmetyczna. W innych przypadkach może to zepsuć twoje statystyki. Na przykład podczas obliczania wariancji przycinanie zawsze nie docenia Twojej prawdziwej wariancji. Winsorization, zakładając, że rzeczywiście niektóre ekstremalne obserwacje są błędne, będzie działał nieco lepiej (prawdopodobnie nadal będzie niedoceniany, ale nie tak bardzo).

Nie rozumiem, jak by pasowało tutaj zastąpienie ekstremalnych wartości średnią.

Istnieje jednak inna związana z tym praktyka: imputacja wartości brakującej . Zakładając, że twoja wartość odstająca jest wadliwa, bezwartościowe dane, więc usuń ją. Po przeprowadzeniu imputacji typową wartością zastępczą byłaby średnia lub tryb:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

Anony-Mus
źródło

1

Przycinanie asymetryczne jest znaną i dającą się obronić taktyką.

Nick Cox,

2

Tradycyjnym podejściem do obsługi wartości odstających jest po prostu ich usunięcie, aby Twój model był szkolony tylko na „dobrych” danych.

Należy pamiętać, że na wartość średnią wpływa obecność tych wartości odstających. Jeśli zamienisz wartości odstające na średnią obliczoną po usunięciu wartości odstających z zestawu danych , nie będzie to miało znaczenia, ponieważ linia regresji (z prostej regresji liniowej) przejdzie przez średnią twoich danych treningowych (zmniejszy to wariancję twojego szacunki, co jest prawdopodobnie przeciwieństwem tego, co chcesz, biorąc pod uwagę, że wiesz, że istnieją wartości odstające).

Wpływ twojego podejścia na model zależy od wpływu (dźwigni) wartości odstającej. Odradzam podejście, które sugerujesz, zamiast po prostu całkowicie usunąć tę kwestię.

David Marks
źródło

4

Usunięcie danych spowoduje stronniczość, chyba że procedura usunięcia jest obiektywna i ta sama procedura zostanie zastosowana do wszystkich przyszłych danych, dla których uzyskano prognozy.

Frank Harrell,

0

tak, wartości odstające mogą być zamienione na formularze majowe, na przykład weźmy zestaw danych wielkości Ludzkich wysokości, powiedzmy, że mamy jakieś wartości odstające, takie jak 500 cm i 400 cm, możemy po prostu zastąpić te punkty danych, które pojawiają się w zestaw danych z powodu błędu, który został spowodowany podczas rejestrowania danych. więc opcje, które możesz wypróbować, to: 1. zastąp je medianą całego koloru danych (nie średnią, ponieważ jest podatna na wartości odstające). 2. zamień na najczęściej występujący punkt danych w kolumnie. 3. Jeśli wartości jakościowe, możesz wypróbować kodowanie odpowiedzi (w którym zapisujesz prawdopodobieństwo słowa lub wartości występujących w całkowitej liczbie słów)

Sujit Jena
źródło

Zamieniając wartości odstające na średnie

Odpowiedzi:

Referencje