Szukałem sposobu na usunięcie wartości odstających z zestawu danych i znalazłem to pytanie .
Jednak w niektórych komentarzach i odpowiedziach na to pytanie ludzie wspomnieli, że usunięcie wartości odstających z danych jest złą praktyką.
W moim zestawie danych mam kilka wartości odstających, które najprawdopodobniej są spowodowane błędami pomiaru. Nawet jeśli niektóre z nich nie są, nie mam możliwości sprawdzenia tego przypadek po przypadku, ponieważ istnieje zbyt wiele punktów danych. Czy to jest statystycznie poprawne niż zwykłe usuwanie wartości odstających? A jeśli nie, jakie może być inne rozwiązanie?
Jeśli zostawię te punkty tam, wpłyną one np. Na środek w sposób, który nie odzwierciedla rzeczywistości (ponieważ większość z nich to i tak błędy).
EDYCJA: Pracuję z danymi przewodności skóry. Większość ekstremalnych wartości wynika z artefaktów, takich jak ktoś pociągający za przewody.
EDYCJA 2: Moim głównym zainteresowaniem w analizie danych jest ustalenie, czy istnieje różnica między dwiema grupami
Odpowiedzi:
Nie polecam wykluczania wartości odstających w głównej analizie (chyba że jesteś naprawdę pozytywny, że się mylą). Możesz to zrobić w analizie wrażliwości i porównać wyniki dwóch analiz. W nauce często odkrywasz nowe rzeczy właśnie wtedy, gdy koncentrujesz się na takich wartościach odstających.
Aby bardziej rozwinąć sprawę, zastanów się nad odkryciem penicyliny przez Fleminga w oparciu o przypadkowe zanieczyszczenie jego eksperymentów pleśnią:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
Patrząc na przeszłość lub teraźniejszość, wykrywanie wartości odstających jest często wykorzystywane do ukierunkowywania innowacji w naukach biomedycznych. Zobacz na przykład następujące artykuły (z odpowiednimi kodami R):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Wreszcie, jeśli masz uzasadnione podstawy, aby wykluczyć niektóre dane, możesz to zrobić, najlepiej w analizie wrażliwości, a nie w pierwotnej. Na przykład możesz wykluczyć wszystkie wartości, które nie są biologicznie wiarygodne (takie jak temperatura 48 stopni Celsjusza u pacjenta z sepsą). Podobnie można wykluczyć wszystkie pierwsze i ostatnie pomiary dla danego pacjenta, aby zminimalizować artefakty ruchowe. Zauważ jednak, że jeśli zrobisz to post-hoc (nie na podstawie wcześniej określonych kryteriów), ryzyko to będzie równoznaczne z masowaniem danych.
źródło
Jedną z opcji jest wykluczenie wartości odstających, ale IMHO należy to zrobić tylko wtedy, gdy można argumentować (z prawie całkowitą pewnością), dlaczego takie punkty są nieważne (np. Zepsuł się sprzęt pomiarowy, z jakiegoś powodu metoda pomiaru była zawodna ...). Np. W pomiarach w dziedzinie częstotliwości DC jest często odrzucane, ponieważ wiele różnych terminów przyczynia się do DC, dość często niezwiązanych ze zjawiskiem, które próbujesz zaobserwować.
Problem z usuwaniem wartości odstających polega na tym, że aby ustalić, które punkty są wartościami odstającymi, musisz mieć dobry model tego, co jest, a co nie jest „dobrymi danymi”. Jeśli nie masz pewności co do modelu (jakie czynniki należy uwzględnić, jaką strukturę ma model, jakie są założenia dotyczące hałasu, ...), nie możesz być pewien swoich wartości odstających. Te wartości odstające mogą być tylko próbkami, które próbują powiedzieć, że twój model jest zły. Innymi słowy: usunięcie wartości odstających wzmocni Twój (niepoprawny!) Model, zamiast umożliwiać uzyskanie nowych informacji!
Inną opcją jest użycie solidnych statystyk. Np. Średnia i odchylenie standardowe są wrażliwe na wartości odstające, inne wskaźniki „lokalizacji” i „rozprzestrzeniania się” są bardziej wiarygodne. Np. Zamiast średniej użyj mediany. Zamiast odchylenia standardowego użyj zakresu międzykwartylowego. Zamiast standardowej regresji metodą najmniejszych kwadratów można użyć solidnej regresji. Wszystkie te niezawodne metody odznaczają wartości odstające w taki czy inny sposób, ale zazwyczaj nie usuwają całkowicie danych odstających (tj. Dobrze).
źródło
Pomyślałem, że dodam przestrogę o usuwaniu wartości odstających:
Pamiętasz problem z dziurą w polarnej warstwie ozonowej? Był satelita, który został umieszczony na orbicie nad biegunem specjalnie do pomiaru stężenia ozonu. Przez kilka lat po przetworzeniu dane z satelity informowały, że ozon polarny był obecny na normalnym poziomie, chociaż inne źródła wyraźnie wykazały brak ozonu. W końcu ktoś wrócił, by sprawdzić oprogramowanie satelitarne. Okazało się, że ktoś napisał kod, aby sprawdzić, czy nieprzetworzony pomiar mieści się w oczekiwanym zakresie typowego poziomu historycznego, i założyć, że jakikolwiek pomiar poza tym zakresem był tylko „skokiem” instrumentu (tj. Wartością odstającą), automatycznie poprawianie wartości . Na szczęście zarejestrowali również surowe pomiary; sprawdzając je, zobaczyli, że dziura była cały czas zgłaszana.
źródło
„Wartość odstająca” jest wygodnym terminem do zbierania danych, które nie pasują do tego, jak oczekuje się twojego procesu, w celu usunięcia z analizy.
Sugerowałbym nigdy (z zastrzeżeniem później) usuwania wartości odstających. Moje tło to statystyczna kontrola procesu, dlatego często zajmuję się dużymi ilościami automatycznie generowanych danych szeregów czasowych, które są przetwarzane przy użyciu wykresu przebiegu / wykresu ruchomego pola / itp. W zależności od danych i dystrybucji.
Problem polega na tym, że zawsze będą dostarczać informacje o twoim „procesie”. Często to, co myślisz o jednym procesie, to tak naprawdę wiele procesów i jest ono o wiele bardziej złożone, niż ci się wydaje.
Korzystając z przykładu z twojego pytania, sugerowałbym, że może istnieć wiele „procesów”. będą różnice z powodu ...
Wszystkie te procesy spowodują dodatkową zmienność danych i prawdopodobnie przesuną średnią i zmienią kształt rozkładu. Wielu z nich nie będzie można rozdzielić na odrębne procesy.
Przechodząc do pomysłu usuwania punktów danych jako „wartości odstających” ... Usuwałbym tylko te punkty danych, kiedy zdecydowanie mogę przypisać je do konkretnego „procesu”, którego nie chcę uwzględniać w mojej analizie. Następnie należy upewnić się, że przyczyny nieuwzględnienia zostały zarejestrowane w ramach analizy, więc jest to oczywiste. Nie zakładaj atrybucji, to podstawowa rzecz w robieniu dodatkowych notatek poprzez obserwację podczas zbierania danych.
Zakwestionowałbym twoje stwierdzenie „ponieważ większość z nich to i tak błędy”, ponieważ nie są to błędy, ale tylko część innego procesu, który zidentyfikowałeś w swoich pomiarach jako inny.
W twoim przykładzie rozsądne jest wykluczenie punktów danych, które można przypisać do osobnego procesu, którego nie chcesz analizować.
źródło
Jeśli usuwasz wartości odstające, w większości sytuacji musisz udokumentować, że to robisz i dlaczego. Jeśli jest to artykuł naukowy lub do celów prawnych, może to skutkować dyskontowaniem i / lub odrzuceniem ostatecznych statystyk.
Lepszym rozwiązaniem jest identyfikacja, kiedy myślisz, że otrzymujesz złe dane (np. Kiedy ludzie ciągną za przewody), a następnie identyfikacja, kiedy ludzie ciągną za przewody i wyciągają dane z tego powodu. Prawdopodobnie spowoduje to również usunięcie niektórych „dobrych” punktów danych, ale teraz masz „prawdziwy” powód do oznaczania i dyskontowania tych punktów danych na końcu gromadzenia, a nie na końcu analizy. O ile robisz to w sposób przejrzysty i przejrzysty, o wiele bardziej prawdopodobne jest, że będzie akceptowany przez osoby trzecie. Jeśli usuniesz punkty danych związane z wyciągniętymi drutami i nadal występują wartości odstające, prawdopodobnym wnioskiem jest to, że wyciągnięte przewody nie są (jedynym) problemem - dalszy problem może dotyczyć projektu eksperymentu lub teorii.
Jednym z pierwszych eksperymentów, które moja mama przeprowadziła po powrocie na uniwersytet, aby ukończyć studia licencjackie, było to, w którym studenci otrzymali „złą” teorię o tym, jak działa proces, a następnie kazano im przeprowadzić eksperyment. Uczniowie, którzy usunęli lub zmodyfikowali powstałe „złe” punkty danych, nie zdali zadania. Ci, którzy poprawnie podali, że ich dane nie zgadzają się z wynikami przewidywanymi przez (złą) teorię, zdali. Celem zadania było nauczenie uczniów, aby nie „naprawiali” (fałszowali) swoich danych, gdy nie było to zgodne z oczekiwaniami.
Podsumowanie: jeśli generujesz złe dane, napraw eksperyment, a nie dane.
źródło
Z pewnością jest to dylemat moralny. Z jednej strony, dlaczego warto pozwolić, aby kilka podejrzanych punktów danych zepsuło dopasowanie modelu do większości danych? Z drugiej strony usuwanie obserwacji, które nie są zgodne z koncepcją rzeczywistości twojego modelu, jest swego rodzaju cenzurą. Do punktu @ Egona, te wartości odstające mogą próbować powiedzieć coś o tej rzeczywistości.
W prezentacji statystycznej Steve MacEachern zdefiniował wartości odstające jako „[niereprezentatywne dla badanego zjawiska.]„ W tym punkcie widzenia, jeśli uważasz, że te podejrzane punkty danych nie są reprezentatywne dla zjawiska przewodnictwa skóry, które próbujesz zbadać , może nie należą one do analizy. Lub jeśli wolno im pozostać, należy zastosować metodę ograniczającą ich wpływ. W tej samej prezentacji MacEachern podał przykłady solidnych metod i pamiętam, że w tych kilku przykładach klasyczne metody z usuniętymi wartościami odstającymi zawsze zgadzały się z solidnymi analizami z wartościami odstającymi wciąż uwzględnianymi. Osobiście mam tendencję do pracy z klasycznymi technikami, z którymi czuję się najlepiej i żyję z moralną niepewnością usuwania wartości odstających.
źródło
Jeśli przeprowadzę losową próbę 100 osób, a jedną z nich będzie Bill Gates, to o ile mogę stwierdzić, Bill Gates reprezentuje 1/100 populacji.
Skrócona średnia mówi mi, że średnie zarobki na loterii wynoszą 0 USD.
źródło
Oczywiście należy usunąć wartości odstające, ponieważ z definicji nie podążają one za badanym rozkładem i są pasożytniczym zjawiskiem.
Prawdziwe pytanie brzmi: „jak mogę niezawodnie wykryć wartości odstające”!
źródło