Czy można usunąć wartości odstające z danych?

33

Szukałem sposobu na usunięcie wartości odstających z zestawu danych i znalazłem to pytanie .

Jednak w niektórych komentarzach i odpowiedziach na to pytanie ludzie wspomnieli, że usunięcie wartości odstających z danych jest złą praktyką.

W moim zestawie danych mam kilka wartości odstających, które najprawdopodobniej są spowodowane błędami pomiaru. Nawet jeśli niektóre z nich nie są, nie mam możliwości sprawdzenia tego przypadek po przypadku, ponieważ istnieje zbyt wiele punktów danych. Czy to jest statystycznie poprawne niż zwykłe usuwanie wartości odstających? A jeśli nie, jakie może być inne rozwiązanie?

Jeśli zostawię te punkty tam, wpłyną one np. Na środek w sposób, który nie odzwierciedla rzeczywistości (ponieważ większość z nich to i tak błędy).

EDYCJA: Pracuję z danymi przewodności skóry. Większość ekstremalnych wartości wynika z artefaktów, takich jak ktoś pociągający za przewody.

EDYCJA 2: Moim głównym zainteresowaniem w analizie danych jest ustalenie, czy istnieje różnica między dwiema grupami

Sininho
źródło
3
A co chcesz robić Podsumowanie danych? Analiza predykcyjna? Wizualizacja danych? Udowadniając, że istnieje (nie) znacząca różnica między dwiema grupami? Podobnie jak w przypadku czyszczenia danych, nie ma ogólnej odpowiedzi.
Piotr Migdal
5
Jestem inżynierem, który pracuje z dużą ilością statystyk. To było wyłączenie odpowiedzialności i spowiedź, co oznacza, że ​​muszę dostarczać produkty. Możemy jedynie usunąć w pełni przypisane „złe” punkty. Czy możesz udowodnić, że pochodzi od kogoś, kto ciągnie drut? Jeśli uzyskasz kilka celowych środków, możesz tam związać i skupić się. Następnie możesz podzielić dane w klastrze (pull vs non-pull) i nie chodzi już o wartości odstające. Jeśli nie możesz udowodnić, jaka jest podstawowa przyczyna, musisz (musisz) zachować to. Mówi o zmienności i jest to duża część analizy. Nie możesz się go pozbyć, jeśli ci się nie podoba.
EngrStudent - Przywróć Monikę
4
Myślę, że zaczynasz od niewłaściwego końca. Pierwsze pytanie brzmi: w jaki sposób identyfikujesz wartości odstające?
user603
5
Zamiast arbitralnego usuwania arbitralnie zidentyfikowanych wartości odstających, lepiej rozważyć coś takiego: „skoro mam zanieczyszczenia spowodowane problemami takimi jak ludzie ciągnący za przewody, jakie metody mogę zastosować, na które takie zanieczyszczenie nie ma znacznego wpływu?”
Glen_b

Odpowiedzi:

26

Nie polecam wykluczania wartości odstających w głównej analizie (chyba że jesteś naprawdę pozytywny, że się mylą). Możesz to zrobić w analizie wrażliwości i porównać wyniki dwóch analiz. W nauce często odkrywasz nowe rzeczy właśnie wtedy, gdy koncentrujesz się na takich wartościach odstających.

Aby bardziej rozwinąć sprawę, zastanów się nad odkryciem penicyliny przez Fleminga w oparciu o przypadkowe zanieczyszczenie jego eksperymentów pleśnią:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Patrząc na przeszłość lub teraźniejszość, wykrywanie wartości odstających jest często wykorzystywane do ukierunkowywania innowacji w naukach biomedycznych. Zobacz na przykład następujące artykuły (z odpowiednimi kodami R):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Wreszcie, jeśli masz uzasadnione podstawy, aby wykluczyć niektóre dane, możesz to zrobić, najlepiej w analizie wrażliwości, a nie w pierwotnej. Na przykład możesz wykluczyć wszystkie wartości, które nie są biologicznie wiarygodne (takie jak temperatura 48 stopni Celsjusza u pacjenta z sepsą). Podobnie można wykluczyć wszystkie pierwsze i ostatnie pomiary dla danego pacjenta, aby zminimalizować artefakty ruchowe. Zauważ jednak, że jeśli zrobisz to post-hoc (nie na podstawie wcześniej określonych kryteriów), ryzyko to będzie równoznaczne z masowaniem danych.

Joe_74
źródło
5
Zgadzam się, ale znajduję tę odpowiedź w jakiś sposób, aby ją głosować. Może mógłbyś podać działający przykład lub pokazać, dlaczego i jak można odkryć nowe rzeczy, koncentrując się na wartościach odstających? Na pierwszy rzut oka może to nie być takie oczywiste.
Tim
26

Jedną z opcji jest wykluczenie wartości odstających, ale IMHO należy to zrobić tylko wtedy, gdy można argumentować (z prawie całkowitą pewnością), dlaczego takie punkty są nieważne (np. Zepsuł się sprzęt pomiarowy, z jakiegoś powodu metoda pomiaru była zawodna ...). Np. W pomiarach w dziedzinie częstotliwości DC jest często odrzucane, ponieważ wiele różnych terminów przyczynia się do DC, dość często niezwiązanych ze zjawiskiem, które próbujesz zaobserwować.

Problem z usuwaniem wartości odstających polega na tym, że aby ustalić, które punkty są wartościami odstającymi, musisz mieć dobry model tego, co jest, a co nie jest „dobrymi danymi”. Jeśli nie masz pewności co do modelu (jakie czynniki należy uwzględnić, jaką strukturę ma model, jakie są założenia dotyczące hałasu, ...), nie możesz być pewien swoich wartości odstających. Te wartości odstające mogą być tylko próbkami, które próbują powiedzieć, że twój model jest zły. Innymi słowy: usunięcie wartości odstających wzmocni Twój (niepoprawny!) Model, zamiast umożliwiać uzyskanie nowych informacji!

Inną opcją jest użycie solidnych statystyk. Np. Średnia i odchylenie standardowe są wrażliwe na wartości odstające, inne wskaźniki „lokalizacji” i „rozprzestrzeniania się” są bardziej wiarygodne. Np. Zamiast średniej użyj mediany. Zamiast odchylenia standardowego użyj zakresu międzykwartylowego. Zamiast standardowej regresji metodą najmniejszych kwadratów można użyć solidnej regresji. Wszystkie te niezawodne metody odznaczają wartości odstające w taki czy inny sposób, ale zazwyczaj nie usuwają całkowicie danych odstających (tj. Dobrze).

Egon
źródło
5
Świetna odpowiedź. Większość ludzi nie zdaje sobie sprawy, że nie każda technika nadaje się do każdego rodzaju danych . Koncentrowanie się na średniej dla danych z wartościami odstającymi jest jednym z niefortunnych wyników. Im więcej połączeń budzących otrzymają, od takich odpowiedzi, tym lepiej dla wszystkich.
rumtscho,
16

Pomyślałem, że dodam przestrogę o usuwaniu wartości odstających:

Pamiętasz problem z dziurą w polarnej warstwie ozonowej? Był satelita, który został umieszczony na orbicie nad biegunem specjalnie do pomiaru stężenia ozonu. Przez kilka lat po przetworzeniu dane z satelity informowały, że ozon polarny był obecny na normalnym poziomie, chociaż inne źródła wyraźnie wykazały brak ozonu. W końcu ktoś wrócił, by sprawdzić oprogramowanie satelitarne. Okazało się, że ktoś napisał kod, aby sprawdzić, czy nieprzetworzony pomiar mieści się w oczekiwanym zakresie typowego poziomu historycznego, i założyć, że jakikolwiek pomiar poza tym zakresem był tylko „skokiem” instrumentu (tj. Wartością odstającą), automatycznie poprawianie wartości . Na szczęście zarejestrowali również surowe pomiary; sprawdzając je, zobaczyli, że dziura była cały czas zgłaszana.

PMar
źródło
12
Dobrze byłoby dołączyć odniesienie do incydentu : Dlaczego nie odkryli tego zjawiska wcześniej? Niestety, oprogramowanie do analizy danych TOMS zostało zaprogramowane do oznaczania i odkładania punktów danych, które znacznie odbiegają od oczekiwanych pomiarów, więc pomiary początkowe, które powinny wywołać alarmy, zostały po prostu przeoczone. Krótko mówiąc, zespół TOMS nie wykrył zubożenia warstwy ozonowej wiele lat wcześniej, ponieważ był on znacznie poważniejszy niż się spodziewali naukowcy.
Johnny
3
To świetna historia. i jeden wielokrotnie powtarzany, ale dla mnie math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf w przekonujący sposób identyfikuje go jako mit oparty na nieporozumieniu. Nawiasem mówiąc, ponieważ istnieją dwa bieguny, „polarna warstwa ozonowa” wymaga ponownego napisania.
Nick Cox
3
Zobacz także autorytatywne konto Christie. M. 2001. Warstwa ozonowa Filozofia nauki. Cambridge: Cambridge UP
Nick Cox
7

„Wartość odstająca” jest wygodnym terminem do zbierania danych, które nie pasują do tego, jak oczekuje się twojego procesu, w celu usunięcia z analizy.

Sugerowałbym nigdy (z zastrzeżeniem później) usuwania wartości odstających. Moje tło to statystyczna kontrola procesu, dlatego często zajmuję się dużymi ilościami automatycznie generowanych danych szeregów czasowych, które są przetwarzane przy użyciu wykresu przebiegu / wykresu ruchomego pola / itp. W zależności od danych i dystrybucji.

Problem polega na tym, że zawsze będą dostarczać informacje o twoim „procesie”. Często to, co myślisz o jednym procesie, to tak naprawdę wiele procesów i jest ono o wiele bardziej złożone, niż ci się wydaje.

Korzystając z przykładu z twojego pytania, sugerowałbym, że może istnieć wiele „procesów”. będą różnice z powodu ...

  • próbki pobrane z jednego urządzenia przewodności
  • próbki pobrane między urządzeniami przewodności
  • kiedy badany wyjął sondę
  • kiedy obiekt się poruszył
  • różnice w skórze jednego pacjenta na całym ciele lub między różnymi dniami pobierania próbek (włosy, wilgoć, olej itp.)
  • różnice między podmiotami
  • szkolenie osoby dokonującej pomiarów i różnic między pracownikami

Wszystkie te procesy spowodują dodatkową zmienność danych i prawdopodobnie przesuną średnią i zmienią kształt rozkładu. Wielu z nich nie będzie można rozdzielić na odrębne procesy.

Przechodząc do pomysłu usuwania punktów danych jako „wartości odstających” ... Usuwałbym tylko te punkty danych, kiedy zdecydowanie mogę przypisać je do konkretnego „procesu”, którego nie chcę uwzględniać w mojej analizie. Następnie należy upewnić się, że przyczyny nieuwzględnienia zostały zarejestrowane w ramach analizy, więc jest to oczywiste. Nie zakładaj atrybucji, to podstawowa rzecz w robieniu dodatkowych notatek poprzez obserwację podczas zbierania danych.

Zakwestionowałbym twoje stwierdzenie „ponieważ większość z nich to i tak błędy”, ponieważ nie są to błędy, ale tylko część innego procesu, który zidentyfikowałeś w swoich pomiarach jako inny.

W twoim przykładzie rozsądne jest wykluczenie punktów danych, które można przypisać do osobnego procesu, którego nie chcesz analizować.

Marcus D.
źródło
6

Jeśli usuwasz wartości odstające, w większości sytuacji musisz udokumentować, że to robisz i dlaczego. Jeśli jest to artykuł naukowy lub do celów prawnych, może to skutkować dyskontowaniem i / lub odrzuceniem ostatecznych statystyk.

Lepszym rozwiązaniem jest identyfikacja, kiedy myślisz, że otrzymujesz złe dane (np. Kiedy ludzie ciągną za przewody), a następnie identyfikacja, kiedy ludzie ciągną za przewody i wyciągają dane z tego powodu. Prawdopodobnie spowoduje to również usunięcie niektórych „dobrych” punktów danych, ale teraz masz „prawdziwy” powód do oznaczania i dyskontowania tych punktów danych na końcu gromadzenia, a nie na końcu analizy. O ile robisz to w sposób przejrzysty i przejrzysty, o wiele bardziej prawdopodobne jest, że będzie akceptowany przez osoby trzecie. Jeśli usuniesz punkty danych związane z wyciągniętymi drutami i nadal występują wartości odstające, prawdopodobnym wnioskiem jest to, że wyciągnięte przewody nie są (jedynym) problemem - dalszy problem może dotyczyć projektu eksperymentu lub teorii.

Jednym z pierwszych eksperymentów, które moja mama przeprowadziła po powrocie na uniwersytet, aby ukończyć studia licencjackie, było to, w którym studenci otrzymali „złą” teorię o tym, jak działa proces, a następnie kazano im przeprowadzić eksperyment. Uczniowie, którzy usunęli lub zmodyfikowali powstałe „złe” punkty danych, nie zdali zadania. Ci, którzy poprawnie podali, że ich dane nie zgadzają się z wynikami przewidywanymi przez (złą) teorię, zdali. Celem zadania było nauczenie uczniów, aby nie „naprawiali” (fałszowali) swoich danych, gdy nie było to zgodne z oczekiwaniami.

Podsumowanie: jeśli generujesz złe dane, napraw eksperyment, a nie dane.

darkonc
źródło
5

Z pewnością jest to dylemat moralny. Z jednej strony, dlaczego warto pozwolić, aby kilka podejrzanych punktów danych zepsuło dopasowanie modelu do większości danych? Z drugiej strony usuwanie obserwacji, które nie są zgodne z koncepcją rzeczywistości twojego modelu, jest swego rodzaju cenzurą. Do punktu @ Egona, te wartości odstające mogą próbować powiedzieć coś o tej rzeczywistości.

W prezentacji statystycznej Steve MacEachern zdefiniował wartości odstające jako „[niereprezentatywne dla badanego zjawiska.]„ W tym punkcie widzenia, jeśli uważasz, że te podejrzane punkty danych nie są reprezentatywne dla zjawiska przewodnictwa skóry, które próbujesz zbadać , może nie należą one do analizy. Lub jeśli wolno im pozostać, należy zastosować metodę ograniczającą ich wpływ. W tej samej prezentacji MacEachern podał przykłady solidnych metod i pamiętam, że w tych kilku przykładach klasyczne metody z usuniętymi wartościami odstającymi zawsze zgadzały się z solidnymi analizami z wartościami odstającymi wciąż uwzględnianymi. Osobiście mam tendencję do pracy z klasycznymi technikami, z którymi czuję się najlepiej i żyję z moralną niepewnością usuwania wartości odstających.

Ben Ogorek
źródło
8
W Box, Hunter & Hunter: „Statistics for Experimenters” mówią, że w branży chemicznej wartości odstające często prowadzą do nowych patentów . Czy chcesz wyrzucić swój nowy patent?
kjetil b halvorsen
2
Nie, nie chcę przegapić żadnych patentów. Ale nie chcę też obracać dwunastu cykli, starając się, aby mój model przystosował się do „kogoś ciągnącego za przewody”. Niemal na pewno nie jest to badane zjawisko. Podobają mi się wartości odstające jako możliwości, a jedną rzeczą, którą należy powiedzieć o prostym usunięciu, jest to, że przynajmniej kod zapewni dokumentację tych usunięć, podczas gdy w niezawodnych metodach wartości odstające po prostu współistnieją z innymi punktami.
Ben Ogorek,
2
Masz rację, że należy wziąć pod uwagę szczególne okoliczności. To, czego nie należy robić, to zastosować pewne pozbawione kontekstu „reguły” dotyczące odrzucania wartości odstających. Nie ma takich dobrych zasad.
kjetil b halvorsen
1
Moje ulubione zdanie na temat siły kontekstu ilustruje pytanie: „Czy batony Snickers są zdrowe?” Cóż, jeśli zagubiłeś się w lesie przez trzy dni i właśnie znalazłeś kilka na ziemi, okazuje się, że są całkiem zdrowi. Wydaje mi się, że popularne odpowiedzi mówią nam: „Nigdy nie jedz baru Snickers, chyba że masz absolutną pewność, że umrzesz, jeśli tego nie zrobisz”.
Ben Ogorek,
0

Jeśli przeprowadzę losową próbę 100 osób, a jedną z nich będzie Bill Gates, to o ile mogę stwierdzić, Bill Gates reprezentuje 1/100 populacji.

Skrócona średnia mówi mi, że średnie zarobki na loterii wynoszą 0 USD.

AdamO
źródło
Nic nienormalnego, przycięty środek nie jest odpowiedni dla przekrzywionych rozkładów.
Yves Daoust
-2

Oczywiście należy usunąć wartości odstające, ponieważ z definicji nie podążają one za badanym rozkładem i są pasożytniczym zjawiskiem.

Prawdziwe pytanie brzmi: „jak mogę niezawodnie wykryć wartości odstające”!

Yves Daoust
źródło
Co jeśli takim rozkładem jest Cauchy?
AdamO
@AdamO: oczywiście pozostaje prawdziwe pytanie.
Yves Daoust
Dlaczego to głosowanie?
Yves Daoust
3
(-1), ponieważ nie sądzę, aby był to odpowiedni wkład oparty na teorii, przykładzie lub praktyce. Czym jest „zjawisko pasożytnicze”, ale poetyckie rozumienie danych? W przypadku ciśnienia krwi, sodu w moczu i obrazowania neurologicznego widzę codzienne wartości odstające, które są reprezentatywne dla badanej populacji. Ich usunięcie może być znaczącym źródłem stronniczości. Stwierdzenie, że są one „zjawiskiem pasożytniczym”, sugeruje i zwodniczo umożliwia ryzykowną praktykę statystyczną.
AdamO,
@adam: po prostu opowiadasz się za tym, aby zachować wewnętrzne dane, z którymi w pełni się zgadzam.
Yves Daoust