Wykrywanie wartości odstających za pomocą standardowych odchyleń

27

Obserwuję moje pytanie tutaj , zastanawiam się, czy istnieją silne poglądy za czy przeciw wykorzystaniu odchylenia standardowego do wykrycia przekroczeń (np dowolny DATAPOINT że jest więcej niż 2 Odchylenie standardowe jest poboczna).

Wiem, że zależy to od kontekstu badania, na przykład punkt danych, 48 kg, z pewnością będzie wartością odstającą w badaniu masy niemowląt, ale nie w badaniu masy dorosłych.

Wartości odstające są wynikiem wielu czynników, takich jak błędy wprowadzania danych. W moim przypadku procesy te są niezawodne.

Wydaje mi się, że pytanie, które zadaję to: Czy użycie standardowego odchylenia jest rozsądną metodą wykrywania wartości odstających?

Amarald
źródło
1
Mówisz: „W moim przypadku te procesy są solidne”. Znaczy co? Czy jesteś pewien, że nie popełniłeś błędów przy wprowadzaniu danych?
Wayne
Jest tu tak wiele dobrych odpowiedzi, że nie jestem pewien, którą odpowiedź zaakceptować! Wszelkie wskazówki na ten temat byłyby pomocne
Amarald
Zasadniczo wybierz odpowiedź, która Twoim zdaniem odpowiada na twoje pytanie w sposób najbardziej bezpośredni i wyraźny, a jeśli trudno będzie powiedzieć, wybrałbym tę z największą liczbą głosów. Nawet bolesne jest wybranie, który z nich jest ważny, ważne jest nagrodzenie kogoś, kto poświęcił czas na odpowiedź.
Wayne
1
PS Czy możesz wyjaśnić, co rozumiesz przez „te procesy są niezawodne”? Nie ma to decydującego znaczenia dla odpowiedzi, które koncentrują się na normalności itp., Ale myślę, że ma to pewien wpływ.
Wayne
3
Wartości odstające nie są wolne od modelu. Nietypowa wartość odstająca pod jednym modelem może być zupełnie zwyczajnym punktem pod innym. Pierwsze pytanie powinno brzmieć „dlaczego próbujesz wykryć wartości odstające?” (zamiast robić coś innego, na przykład stosować solidne dla nich metody), a drugim byłoby „co sprawia, że ​​obserwacja jest odstająca w konkretnej aplikacji?”
Glen_b

Odpowiedzi:

26

Niektóre wartości odstające są wyraźnie niemożliwe . Wspominasz 48 kg na wagę dziecka. To wyraźnie błąd. To nie jest problem statystyczny , tylko merytoryczny. Nie ma 48 kg ludzkich dzieci. Każda metoda statystyczna zidentyfikuje taki punkt.

Osobiście, zamiast polegać na jakimkolwiek teście (nawet odpowiednim, jak zalecił @Michael), chciałbym sporządzić wykres danych. Wykazanie, że pewna wartość danych (lub wartości) jest mało prawdopodobna przy niektórych hipotetycznych rozkładach, nie oznacza, że ​​wartość jest błędna, a zatem wartości nie należy automatycznie usuwać tylko dlatego, że są ekstremalne.

Ponadto reguła, którą proponujesz (2 SD od średniej) jest starą, która była używana w czasach, kiedy komputery ułatwiały sprawę. Jeśli N wynosi 100 000, to na pewno spodziewasz się o kilka wartości większych niż 2 SD od średniej, nawet jeśli istnieje idealny rozkład normalny.

Ale co jeśli dystrybucja jest nieprawidłowa? Załóżmy, że w populacji dana zmienna nie jest normalnie rozmieszczona, ale ma cięższe ogony?

Peter Flom - Przywróć Monikę
źródło
1
Jaka jest największa wartość masy dziecka, którą uważasz za możliwą?
mark999
2
Nie wiem Ale można sprawdzić rekord. Według answer.com (z szybkiego google) było to 23,12 funta, urodzone przez dwoje rodziców z gigantycznym podejściem. Gdybym robił badania, sprawdziłbym więcej.
Peter Flom - Przywróć Monikę
Co jeśli nie można wizualnie sprawdzić danych (tzn. Może to być część procesu automatycznego?)
user90772
Jakoś dodaj wykresy do automatyzacji.
Peter Flom - Przywróć Monikę
24

Tak. Jest to zły sposób na „wykrycie” przeszkód. W przypadku normalnie rozłożonych danych taka metoda nazwałaby 5% doskonale dobrych (choć nieco ekstremalnych) obserwacji „wartościami odstającymi”. Również, jeśli masz próbkę o rozmiarze n i szukasz ekstremalnie wysokich lub niskich obserwacji, aby nazwać je wartościami odstającymi, naprawdę patrzysz na statystyki ekstremalnego porządku. Maksymalna i minimalna normalnie rozłożona próbka nie jest normalnie rozłożona. Zatem test powinien opierać się na rozkładzie skrajności. To właśnie robią test Grubbsa i test proporcji Dixona, o czym wspominałem już kilka razy. Nawet jeśli zastosujesz odpowiedni test dla wartości odstających, obserwacji nie należy odrzucać tylko dlatego, że jest ona niezwykle ekstremalna. Powinieneś zbadać, dlaczego pierwsza obserwacja była ekstremalna.

Michael R. Chernick
źródło
1
Tak samo „zły” jak odrzucenie H0 na podstawie niskiej wartości p.
Leo
16

Gdy zapytasz, ile odchyleń standardowych od średniej jest potencjalną wartością odstającą, nie zapomnij, że sama wartość odstająca zwiększy SD, a także wpłynie na wartość średniej. Jeśli masz N wartości, stosunek odległości od średniej podzielonej przez SD nigdy nie może przekroczyć (N-1) / sqrt (N). Jest to oczywiście najważniejsze w przypadku małych próbek. Na przykład, jeśli N = 3, żadna wartość odstająca nie może być większa niż 1,155 * SD od średniej, więc żadna wartość nie może być większa niż 2 SD od średniej. (Zakłada się oczywiście, że obliczasz przykładową SD z dostępnych danych i nie masz teoretycznego powodu, aby znać SD populacji).

Obliczono wartości krytyczne dla testu Grubbsa, aby wziąć to pod uwagę, a zatem zależą od wielkości próbki.

Harvey Motulsky
źródło
12

Myślę, że kontekst jest wszystkim. W podanym przykładzie tak wyraźnie dziecko 48 kg jest błędne, a zastosowanie 2 odchyleń standardowych wychwyciłoby ten przypadek. Nie ma jednak powodu, aby sądzić, że zastosowanie 2 standardowych odchyleń (lub dowolnej innej wielokrotności SD) jest odpowiednie dla innych danych. Na przykład, jeśli patrzysz na pozostałości pestycydów w wodach powierzchniowych, dane przekraczające 2 odchylenia standardowe są dość powszechne. Te szczególnie wysokie wartości nie są „wartościami odstającymi”, nawet jeśli mieszczą się daleko od średniej, ponieważ wynikają z opadów deszczu, niedawnych zastosowań pestycydów itp. Oczywiście możesz stworzyć inne „praktyczne zasady” (dlaczego nie 1,5 × SD lub 3.1415927 × SD?), Ale szczerze mówiąc, takie reguły są trudne do obrony, a ich sukces lub porażka zmieni się w zależności od badanych danych. Myślę, że używając subiektywności i logiki, pomimo subiektywności, jest lepszą metodą na pozbycie się wartości odstających, niż stosowanie arbitralnej reguły. W tym przypadku nie potrzebujesz 2 × SD, aby wykryć wartość odstającą 48 kg - byłeś w stanie to uzasadnić. Czy to nie jest lepsza metoda? W przypadkach, w których nie można tego uzasadnić, cóż, czy arbitralne reguły są lepsze?

Auritus
źródło