Usuwanie wartości odstających z danych - maksymalna liczba wartości odstających, które można usunąć?
9
Mam kilka wartości odstających w moich danych i chciałem je wykluczyć, aby zobaczyć, czy to zmieni wyniki. Twoim zdaniem, do jakiej maksymalnej liczby wartości odstających należy się ograniczyć?
Twój wykres jest tutaj zniekształcony: brakuje etykiet numerycznych na osi y, a wpisy legendy nie są wyraźne. (Może to być sposób na ukrycie niepublikowanych danych, ale nie pomaga nam w udzielaniu dobrych porad.) Ta tajemnicza legenda nie wpływa na twoje pytanie, ale nie wiedząc, nad jaką skalą pracujesz, ogranicza zakres przydatnych odpowiedzi . Przedstawione dane wykazują umiarkowane pochylenie w lewo lub ujemnie; może to mieć sens, a pozorne wartości odstające są po prostu tego konsekwencją. Ewentualnie może być tak, że dokonałeś nadmiernej transformacji, np. Użyłeś logarytmów, gdy dane tego nie zasługują.
Nick Cox,
Odpowiedzi:
9
Nie ma wartości maksymalnej ani minimalnej. Wartości odstające należy usunąć, jeśli są złymi danymi lub istnieją inne istotne powody ich usunięcia. Jeśli nie ma istotnych powodów, sugeruję stosowanie metod odpornych na wartości odstające. Nie usunęłbym wartości odstających tylko dlatego, że są nieco oddalone od innych punktów.
Zgoda. Zwróć uwagę, że Box, Hunter & Hunter: „Statystyki dla eksperymentatorów” mówią, że w przemyśle chemicznym wartości odstające często skutkują nowymi patentami! W zależności od okoliczności wartości odstające mogą być najważniejszą informacją w Twoich danych! Usunięcie ich nigdy nie powinno być łatwe.
kjetil b halvorsen
3
Również w astrofizyce. „Usuńmy z danych czarne dziury i gwiazdy neutronowe” :-).
Peter Flom
1
Peter Flom: Tak! A wśród ludzi, gdyby nie było wśród nas żadnych wartości odstających, nadal żylibyśmy w epoce kamienia łupanego!
kjetil b halvorsen
5
W tym przykładzie zauważ, że wszystkie 7 oznakowanych wartości odstających ma niskie wartości, a żadna nie ma wysokich wartości. Może to oznaczać problemy z pomiarem lub może oznaczać coś bardzo interesującego. Tak czy inaczej, po prostu usunięcie tutaj wartości odstających bez zastanowienia się, co doprowadziło do niskich wartości, wydaje się niewskazane.
EdM
1
Trochę inaczej interpretuję to pytanie. Nie proponuje usunięcia wartości odstających z analizy, co domyślnie zakłada ta odpowiedź. Pyta tylko, jak przeprowadzić analizę wrażliwości „aby sprawdzić, czy to zmieni wyniki”. Chociaż udzielona tu rada dotycząca tego, czy usunąć wartości odstające, jest w porządku - i oczywiście miałaby pewien wpływ na późniejsze decyzje, jeśli okaże się, że analiza jest wrażliwa na wartości odstające, nie wydaje się, aby służyła interesom PO w tym przypadku.
whuber
1
Chciałbym podkreślić coś, co zostało powiedziane w innej odpowiedzi i komentarzach (myślę, że odpowiedzi @Peter Flom są dokładne i że EdM ma rację, jeśli chodzi o pomiary).
Analizowanie danych należy wykonać ostrożnie. Musisz być bardzo świadomy znaczenia wartości odstających w swoim kontakcie. Na przykład, zakładając, że twoja procedura pomiaru została wykonana „poprawnie” (to znaczy, nie wprowadziłeś uprzedzeń, twój sprzęt został skalibrowany, osoba czytająca instrument zrobiła to poprawnie, itp.), Niektóre wartości odstające mogą powiedzieć coś interesującego i czasami bardzo ważne.
Oto wymyślony przykład, bądź pobłażliwy (zaznacz je w komentarzach), jeśli nie jest w 100% poprawny we wszystkich aspektach. ;)
Powiedz, że ktoś testuje efekt zastosowania pewnej ilości substancji w niektórych kulturach (populacjach) bakterii. Teraz „ogólnie” efektem jest ustabilizowanie liczby bakterii w populacji, ale istnieją różnice między poszczególnymi kulturami.
Wyobraź sobie, że wszystkie wartości odstające wskazują sytuacje, w których wszystkie bakterie są martwe. Lub że wszystkie wartości odstające reprezentują kultury, w których populacje bakterii wyrosły spod kontroli.
Chcę podkreślić, że natura twoich postrzeganych wartości odstających może mieć znaczenie, a konsekwencje każdego z nich są inne. Możesz znajdować się w sytuacji, gdy niedopuszczalne jest zwiększenie lub zmniejszenie liczby bakterii.
Oczywiście, jeśli zauważysz, że niektóre populacje zostały wymazane przez substancję, prawdopodobnie zbadałbyś tę sprawę, ponieważ jest to sytuacja łatwo rozpoznawalna. Ale nie wszystkie zjawiska są łatwe do wykrycia.
Podsumowując, pojęcie wartości odstających jest nieco arbitralne, ale ich znaczenie jest różnorodne i ma różne znaczenie. Mam nadzieję, że sprawi, że pomyślisz w tej sprawie ... :)
Odpowiedzi:
Nie ma wartości maksymalnej ani minimalnej. Wartości odstające należy usunąć, jeśli są złymi danymi lub istnieją inne istotne powody ich usunięcia. Jeśli nie ma istotnych powodów, sugeruję stosowanie metod odpornych na wartości odstające. Nie usunęłbym wartości odstających tylko dlatego, że są nieco oddalone od innych punktów.
źródło
Chciałbym podkreślić coś, co zostało powiedziane w innej odpowiedzi i komentarzach (myślę, że odpowiedzi @Peter Flom są dokładne i że EdM ma rację, jeśli chodzi o pomiary).
Analizowanie danych należy wykonać ostrożnie. Musisz być bardzo świadomy znaczenia wartości odstających w swoim kontakcie. Na przykład, zakładając, że twoja procedura pomiaru została wykonana „poprawnie” (to znaczy, nie wprowadziłeś uprzedzeń, twój sprzęt został skalibrowany, osoba czytająca instrument zrobiła to poprawnie, itp.), Niektóre wartości odstające mogą powiedzieć coś interesującego i czasami bardzo ważne.
Oto wymyślony przykład, bądź pobłażliwy (zaznacz je w komentarzach), jeśli nie jest w 100% poprawny we wszystkich aspektach. ;)
Powiedz, że ktoś testuje efekt zastosowania pewnej ilości substancji w niektórych kulturach (populacjach) bakterii. Teraz „ogólnie” efektem jest ustabilizowanie liczby bakterii w populacji, ale istnieją różnice między poszczególnymi kulturami.
Wyobraź sobie, że wszystkie wartości odstające wskazują sytuacje, w których wszystkie bakterie są martwe. Lub że wszystkie wartości odstające reprezentują kultury, w których populacje bakterii wyrosły spod kontroli.
Chcę podkreślić, że natura twoich postrzeganych wartości odstających może mieć znaczenie, a konsekwencje każdego z nich są inne. Możesz znajdować się w sytuacji, gdy niedopuszczalne jest zwiększenie lub zmniejszenie liczby bakterii.
Oczywiście, jeśli zauważysz, że niektóre populacje zostały wymazane przez substancję, prawdopodobnie zbadałbyś tę sprawę, ponieważ jest to sytuacja łatwo rozpoznawalna. Ale nie wszystkie zjawiska są łatwe do wykrycia.
Podsumowując, pojęcie wartości odstających jest nieco arbitralne, ale ich znaczenie jest różnorodne i ma różne znaczenie. Mam nadzieję, że sprawi, że pomyślisz w tej sprawie ... :)
źródło