To pytanie zadał mój przyjaciel, który nie jest obeznany z Internetem. Nie mam statystyk i szukałem w Internecie tego pytania.
Pytanie brzmi: czy możliwe jest zastąpienie wartości odstających wartością średnią? jeśli to możliwe, czy są jakieś odniesienia do książek / czasopisma, na których można sporządzić kopię tego oświadczenia?
mean
outliers
robust
winsorizing
Alun
źródło
źródło
Odpowiedzi:
Oczywiście jest to możliwe, ale nie jest jasne, czy to może być dobry pomysł.
Wyjaśnijmy kilka sposobów, w jakie jest to ograniczone lub wadliwe rozwiązanie:
W efekcie mówisz, że wartość odstająca jest całkowicie niewiarygodna, do tego stopnia, że jedyne możliwe przypuszczenie, że wartość powinna być średnią. Jeśli tak myślisz, prawdopodobnie bardziej uczciwe będzie pominięcie danej obserwacji, ponieważ najwyraźniej nie masz wystarczającej ilości informacji, aby lepiej zgadywać.
Nie mówiąc nic więcej, potrzebujesz kryterium lub kryteriów identyfikowania wartości odstających w pierwszej kolejności (jak sugeruje @Frank Harrell). W przeciwnym razie jest to arbitralna i subiektywna procedura, nawet jeśli jest broniona w drodze osądu. Przy niektórych kryteriach możliwe jest, że usunięcie wartości odstających w ten sposób tworzy jeszcze więcej wartości odstających jako efekt uboczny. Przykładem może być to, że wartości odstające to więcej niż tyle standardowych odchyleń od średniej. Usunięcie wartości odstającej zmienia odchylenie standardowe, a nowe punkty danych mogą się teraz kwalifikować i tak dalej.
Przypuszczalnie średnia tutaj oznacza średnią wszystkich pozostałych wartości, punkt wyraźnie wyrażony przez @Davida Marksa. Pomysł jest dwuznaczny bez tego warunku.
Korzystanie ze średniej może wydawać się bezpieczną lub zachowawczą procedurą, ale zmiana wartości na średnią zmieni prawie każdą inną statystykę, w tym miary poziomu, skali i kształtu oraz wskaźniki ich niepewności, co podkreśla @whuber.
Średnia może nawet nie być wykonalną wartością: prostymi przykładami są wartości całkowite, ale zazwyczaj średnia nie jest liczbą całkowitą.
Nawet przy założeniu, że stosowanie miary podsumowującej jest ostrożne, używanie raczej średniej niż mediany lub jakiejkolwiek innej miary wymaga pewnego uzasadnienia.
Ilekroć istnieją inne zmienne, modyfikowanie wartości jednej zmiennej bez odniesienia do innych może spowodować, że punkt danych będzie anomalny w innych zmysłach.
Co zrobić z wartościami odstającymi to pytanie otwarte i bardzo trudne. Luźno różne rozwiązania i strategie mają różny urok. Oto częściowa lista możliwości. Zamówienie jest arbitralne i nie ma na celu przekazania żadnego zamówienia pod względem stosowalności, znaczenia lub jakiegokolwiek innego kryterium. Podejścia te nie wykluczają się wzajemnie.
Jedną (moim zdaniem dobrą) definicją jest to, że „[o] utliers to wartości próbki, które powodują zaskoczenie w stosunku do większości próbki” (WN Venables i BD Ripley. 2002. Nowoczesne statystyki stosowane z S. New York: Springer, s.119). Jednak niespodzianka jest w umyśle obserwatora i zależy od jakiegoś milczącego lub jawnego modelu danych. Może istnieć inny model, w którym wartość odstająca wcale nie jest zaskakująca, więc dane naprawdę są (powiedzmy) logarytmiczne lub gamma, a nie normalne. Krótko mówiąc, bądź przygotowany na (ponowne) rozważenie swojego modelu.
Idź do laboratorium lub na pole i ponownie wykonaj pomiar. Często nie jest to możliwe, ale w niektórych naukach wydaje się to standardem.
Sprawdź, czy wartości odstające są prawdziwe. Większość testów wygląda mi na wymyśloną, ale możesz znaleźć taki, który według ciebie pasuje do twojej sytuacji. Irracjonalna wiara, że test jest odpowiedni, jest zawsze potrzebna do zastosowania testu, który jest następnie przedstawiany jako kwintesencjonalnie racjonalny.
Wyrzuć je jako sprawę.
Wyrzuć je, używając mniej więcej automatycznej (zwykle nie „obiektywnej”) reguły.
Zignoruj je, częściowo lub całkowicie. Może to być formalne (np. Przycinanie) lub tylko kwestia pozostawienia ich w zbiorze danych, ale pomijanie ich w analizach jako zbyt gorących, aby sobie z nimi poradzić.
Przyciągnij je, używając pewnego rodzaju regulacji, np. Winsorizing.
Odrzuć je, używając innej niezawodnej metody szacowania.
Lekceważ je, pracując w przekształconej skali.
Lekceważenie ich przy użyciu funkcji linku niebędącego tożsamością.
Dostosuj je, dopasowując odpowiedni rozkład tłuszczów, długich lub grubych ogonów, bez predyktorów lub z predyktorami.
Dostosuj, używając zmiennej wskaźnikowej lub obojętnej jako dodatkowego predyktora w modelu.
Przejdź na bok problem, stosując procedurę nieparametryczną (np. Opartą na rankingu).
Zdobądź kontrolę nad domniemaną niepewnością za pomocą ładowania początkowego, jackknifingu lub procedury opartej na permutacji.
Edytuj, aby zamienić wartość odstającą na bardziej prawdopodobną wartość, w oparciu o logikę deterministyczną. „18-letnia babcia jest mało prawdopodobna, ale dana osoba urodziła się w 1932 r., Więc prawdopodobnie ma 81 lat”.
Edytuj, aby zastąpić niemożliwą lub nieprawdopodobną wartość odstającą, używając metody imputacji, która jest obecnie akceptowalną niezupełnie białą magią.
Przeanalizuj zi bez, i zobacz, jaką różnicę powodują wartości odstające, statystycznie, naukowo lub praktycznie.
Coś Bayesowskiego. Moja wcześniejsza niewiedza co do tego, co zabrania podawania jakichkolwiek szczegółów.
EDYCJA To drugie wydanie korzysta z innych odpowiedzi i komentarzy. Próbowałem oflagować źródła inspiracji.
źródło
Istnieje kilka problemów sugerowanych przez twoje pytanie.
Żaden z 1-5 nie ma oczywistej odpowiedzi. Jeśli naprawdę uważasz, że te „wartości odstające” są błędne i nie chcesz korzystać z solidnej metody statystycznej, możesz je pominąć i zastosować wielokrotne przypisywanie jako jedno z możliwych rozwiązań. Jeśli zmienna jest zmienną zależną, jednym solidnym wyborem jest regresja porządkowa.
źródło
Propozycja ma wiele wad. Oto chyba największy.
Załóżmy, że gromadzisz dane i widzisz te wartości:
Jak dotąd średnia wynosi .6/3=2
Potem pojawia się wartość odstająca:
Więc zastępujesz go średnią:
Następny numer jest dobry:
Teraz średnia wynosi 3. Poczekaj minutę, średnia wynosi teraz 3, ale zastąpiliśmy 1000 średnią 2, tylko dlatego, że wystąpiła jako czwarta wartość. Co jeśli zmienimy kolejność próbek?
Teraz średnia przed 1000 to . Czy więc powinniśmy zastąpić 1000 tym środkiem?(2+3+1+7)/4=13/4
Problem polega na tym, że fałszywe dane, które podstawiamy zamiast 1000, zależą od innych danych. Jest to problem epistemologiczny, jeśli próbki mają reprezentować niezależne pomiary.
Masz wtedy oczywisty problem, że nie tylko ukrywasz dane, które nie pasują do twoich założeń, ale fałszujesz je. Gdy wystąpi jakiś niepożądany wynik, zwiększasz i zastępujesz fałszywą wartość. Jest to błędne, ponieważ ma być liczbą próbek. Teraz reprezentuje liczbę próbek plus liczbę wartości krówek dodanych do danych. Zasadniczo niszczy to ważność wszystkich obliczeń obejmujących : nawet te, które nie używają wartości krówki. Twoje jest również wartością krówki!n n n nn n n n n
Zasadniczo, przycinanie wyników, które nie pasują, to jedno (i może być uzasadnione, jeśli jest wykonywane konsekwentnie zgodnie z algorytmem, a nie zgodnie ze zmieniającymi się wahaniami nastroju eksperymentatora).
Bezpośrednie fałszowanie wyników budzi zastrzeżenia z powodów filozoficznych, epistemologicznych i etycznych.
Mogą występować pewne okoliczności łagodzące, które mają związek z tym, jak wykorzystywane są wyniki. Powiedzmy na przykład, że to zastąpienie wartości odstających obecną średnią jest częścią algorytmu wbudowanego komputera, który umożliwia mu implementację zamkniętego układu sterowania. (Próbkuje niektóre dane wyjściowe systemu, a następnie dostosowuje dane wejściowe w celu uzyskania kontroli.) Wszystko odbywa się w czasie rzeczywistym, więc coś należy dostarczyć na określony czas w miejsce brakujących danych. Jeśli to kręcenie pomaga przezwyciężyć usterki i zapewnia płynną pracę, to wszystko jest dobrze.
Oto kolejny przykład z telefonii cyfrowej: PLC (ukrywanie utraty pakietów). Bzdury się zdarzają i pakiety gubią się, ale komunikacja odbywa się w czasie rzeczywistym. PLC syntetyzuje fałszywe głosy na podstawie ostatnich informacji o wysokości dźwięku z poprawnie odebranych pakietów. Więc jeśli mówca powiedział samogłoskę „aaa”, a następnie pakiet został utracony, PLC może uzupełnić brakujący pakiet przez ekstrapolację „aaa” na czas trwania ramki (powiedzmy 5 lub 10 milisekund lub cokolwiek innego). „Aaa” jest takie, że przypomina głos mówiącego. Jest to analogiczne do używania „środka” w celu zastąpienia wartości uważanych za złe. To dobra rzecz; jest lepszy niż dźwięk włączany i wyłączany oraz pomaga w zrozumieniu.
Jeśli fałszowanie danych jest częścią programu okłamywania ludzi, aby ukryć nieudaną pracę, to coś innego.
Nie możemy więc myśleć o tym niezależnie od aplikacji: w jaki sposób wykorzystywane są statystyki? Czy zamiany doprowadzą do nieważnych wniosków? Czy są implikacje etyczne?
źródło
W tym artykule Cousineau i Chartiera omawia zastąpienie wartości odstających średnią
http://www.redalyc.org/pdf/2990/299023509004.pdf
Piszą:
Istnieje również pakiet „wartości odstające” pakietu R, który ma funkcję zastępowania wartości odstających wartością średnią. W mojej wyszukiwarce Google widziałem także kilka trafień, które sugerują, że SPSS ma również taką funkcję, ale nie znam tego programu. Być może podążając za wątkami, możesz odkryć techniczne podstawy praktyki.
Referencje
źródło
Najważniejszą rzeczą, o której należy pamiętać w przypadku wartości odstających, jest to, czy dostarczają one użytecznych informacji. Jeśli spodziewasz się, że będą występować regularnie, usunięcie ich z danych zagwarantuje, że Twój model nigdy ich nie przewidzi. Oczywiście zależy to od tego, co chcesz zrobić, ale warto pamiętać, że nie należy ich upuszczać. Jeśli zawierają ważne informacje, możesz rozważyć model, który może je uwzględnić. Jednym, prostym sposobem na to jest pobranie logów zmiennych, które mogą uwzględniać relacje prawa mocy. Alternatywnie możesz użyć modelu, który je rozlicza, z grubym rozkładem błędów.
Jeśli chcesz je wyciąć, zwykłe sposoby to upuścić lub Winsorise , aby usunąć skrajne wartości. Nie mam pod ręką podręcznika, ale linki do Wiki tam odnoszą się do niektórych, jeśli chcesz przeczytać dalej. Większość tekstów na temat stosowanych statystyk powinna zawierać sekcję dotyczącą wartości odstających.
źródło
Mam świadomość dwóch podobnych podobnych podejść w statystykach.
Aby uzyskać bardziej szczegółowe przykłady, patrz Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Pamiętaj, że działa to dobrze w przypadku niektórych statystyk, na przykład podczas obliczania średniej. Średnia obcięta / wygrana jest często lepszym oszacowaniem prawdziwej średniej niż średnia artihmetyczna. W innych przypadkach może to zepsuć twoje statystyki. Na przykład podczas obliczania wariancji przycinanie zawsze nie docenia Twojej prawdziwej wariancji. Winsorization, zakładając, że rzeczywiście niektóre ekstremalne obserwacje są błędne, będzie działał nieco lepiej (prawdopodobnie nadal będzie niedoceniany, ale nie tak bardzo).
Nie rozumiem, jak by pasowało tutaj zastąpienie ekstremalnych wartości średnią.
Istnieje jednak inna związana z tym praktyka: imputacja wartości brakującej . Zakładając, że twoja wartość odstająca jest wadliwa, bezwartościowe dane, więc usuń ją. Po przeprowadzeniu imputacji typową wartością zastępczą byłaby średnia lub tryb:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29
źródło
Tradycyjnym podejściem do obsługi wartości odstających jest po prostu ich usunięcie, aby Twój model był szkolony tylko na „dobrych” danych.
Należy pamiętać, że na wartość średnią wpływa obecność tych wartości odstających. Jeśli zamienisz wartości odstające na średnią obliczoną po usunięciu wartości odstających z zestawu danych , nie będzie to miało znaczenia, ponieważ linia regresji (z prostej regresji liniowej) przejdzie przez średnią twoich danych treningowych (zmniejszy to wariancję twojego szacunki, co jest prawdopodobnie przeciwieństwem tego, co chcesz, biorąc pod uwagę, że wiesz, że istnieją wartości odstające).
Wpływ twojego podejścia na model zależy od wpływu (dźwigni) wartości odstającej. Odradzam podejście, które sugerujesz, zamiast po prostu całkowicie usunąć tę kwestię.
źródło
tak, wartości odstające mogą być zamienione na formularze majowe, na przykład weźmy zestaw danych wielkości Ludzkich wysokości, powiedzmy, że mamy jakieś wartości odstające, takie jak 500 cm i 400 cm, możemy po prostu zastąpić te punkty danych, które pojawiają się w zestaw danych z powodu błędu, który został spowodowany podczas rejestrowania danych. więc opcje, które możesz wypróbować, to: 1. zastąp je medianą całego koloru danych (nie średnią, ponieważ jest podatna na wartości odstające). 2. zamień na najczęściej występujący punkt danych w kolumnie. 3. Jeśli wartości jakościowe, możesz wypróbować kodowanie odpowiedzi (w którym zapisujesz prawdopodobieństwo słowa lub wartości występujących w całkowitej liczbie słów)
źródło