Skrócona średnia vs. mediana

9

Mam zestaw danych ze wszystkimi połączeniami z pogotowiem i czasem reakcji oddziału pogotowia ratunkowego. Przyznali, że są pewne błędy w czasach odpowiedzi, ponieważ są przypadki, w których nie rozpoczęli nagrywania (więc wartość wynosi 0) lub gdzie nie zatrzymali zegara (więc wartość może być bardzo wysoka).

Chcę dowiedzieć się, jaka jest centralna tendencja, i zastanawiałem się, czy lepiej jest użyć mediany czy przyciętego środka, aby pozbyć się wartości odstających?

Duarte_RV
źródło
1
Po pierwsze usunąłbym wszystkie nieprawidłowe dane (wartość = 0). Następnie wizualizuję dane za pomocą histogramu lub wykresu pudełkowego, aby zobaczyć, gdzie stoję. Ponieważ nie możesz ślepo przyciąć danych o 5%, jeśli masz 10% złych danych ...
Alesc
Tak, lub spisz CDF. Zrób to w R: times = times [times> 0]; fabuła (ecdf (czasy))
Paul

Odpowiedzi:

12

Zastanów się, co oznacza przycięcie: w prototypowym przypadku najpierw sortujesz dane w kolejności rosnącej. Następnie odliczasz do procentu przycinania od dołu i odrzucasz te wartości. Na przykład 10% średnia obcięta jest powszechna; w takim przypadku odliczasz od najniższej wartości, dopóki nie przejdziesz 10% wszystkich danych w zestawie. Wartości poniżej tego znaku są odłożone na bok. Podobnie odliczasz od najwyższej wartości, aż przekroczysz swój procent przycinania, i odkładasz wszystkie wartości na bok. Pozostało ci już średnio 80%. Bierzesz średnią z tego, i to jest twoja średnia obcięta 10%. (Pamiętaj, że możesz przycinać nierówne proporcje z dwóch ogonów lub przycinać tylko jeden ogon, ale te podejścia są mniej powszechne i nie wydają się pasować do twojej sytuacji.)

Pomyśl teraz, co by się stało, gdybyś obliczył 50% średnią obciętą. Dolna połowa zostałaby odłożona na bok, podobnie jak górna połowa. Zostanie ci tylko jedna wartość na środku (zwykle). Przyjmiesz średnią tego (co oznacza, że ​​po prostu weźmiesz tę wartość) jako swoją przyciętą średnią. Należy jednak pamiętać, że ta wartość jest medianą. Innymi słowy, mediana jest średnią obciętą (jest średnią 50% przyciętą). To jest po prostu bardzo agresywny. Zakłada zasadniczo, że 99% twoich danych jest zanieczyszczonych. Zapewnia to najwyższą ochronę przed wartościami odstającymi kosztem ostatecznej utraty mocy / wydajności .

Domyślam się, że mediana / 50% średnia obcięta jest o wiele bardziej agresywna niż jest to konieczne dla twoich danych i jest zbyt marnotrawstwem dostępnych informacji. Jeśli masz jakieś pojęcie o proporcji wartości odstających, użyłbym tych informacji, aby ustawić procent przycinania i zastosować odpowiednią przyciętą średnią. Jeśli nie masz podstaw do wybrania procentu przycinania, możesz wybrać jeden na podstawie weryfikacji krzyżowej lub użyć solidnej analizy regresji z tylko przechwyceniem.

gung - Przywróć Monikę
źródło
1
Zgadzam się z duchem tego, ale może to być źle odczytane, ponieważ sugeruje, że przycięte środki muszą koniecznie opierać się na przycinaniu równych frakcji w każdym ogonie. Jest to po prostu powszechna procedura i procedura najczęściej omawiana w przypadku odniesienia o rozkładach w przybliżeniu symetrycznych, ale być może grubych, ale w żadnym wypadku nie jest obowiązkowa. Istnieje literatura na temat przycinania tylko w jednym ogonie, co ma sens, gdy wszystkie wątpliwe wartości mogą znajdować się w ogonie.
Nick Cox,
@NickCox, dobry punkt. Dodałem mały tekst, aby to wyjaśnić. Daj mi znać, jeśli uważasz, że potrzebuje więcej.
gung - Przywróć Monikę
Wygląda dobrze. Oczywiście przycinanie w jednym ogonie jest właśnie tym szczególnym przypadkiem o nierównych proporcjach, w których jedna proporcja wynosi zero.
Nick Cox,
@NickCox, jasne, ale pomyślałem, że lepiej być wyraźnym.
gung - Przywróć Monikę
-1

Przede wszystkim usuń nieprawidłowe dane.

Po drugie, nie trzeba usuwać wartości odstających, ponieważ są to obserwowane wartości. W niektórych przypadkach jest to przydatne (jak w regresji liniowej), ale w twoim przypadku nie widzę sensu.

Wreszcie, wolisz zastosować medianę, ponieważ dokładniej jest znaleźć środek swoich danych. Jak powiedziałeś, średnia może być wrażliwa na wartości odstające (użycie przyciętej średniej może być stronnicze).

Philippe Remy
źródło
3
Ponieważ oszacowanie lokalizacji jest szczególnym przypadkiem regresji, byłbym ciekawy, jak przydatne może być usunięcie wartości odstających w drugim przypadku, ale nie w pierwszym przypadku.
user603