Mam zestaw danych ze wszystkimi połączeniami z pogotowiem i czasem reakcji oddziału pogotowia ratunkowego. Przyznali, że są pewne błędy w czasach odpowiedzi, ponieważ są przypadki, w których nie rozpoczęli nagrywania (więc wartość wynosi 0) lub gdzie nie zatrzymali zegara (więc wartość może być bardzo wysoka).
Chcę dowiedzieć się, jaka jest centralna tendencja, i zastanawiałem się, czy lepiej jest użyć mediany czy przyciętego środka, aby pozbyć się wartości odstających?
mean
outliers
median
trimmed-mean
Duarte_RV
źródło
źródło
Odpowiedzi:
Zastanów się, co oznacza przycięcie: w prototypowym przypadku najpierw sortujesz dane w kolejności rosnącej. Następnie odliczasz do procentu przycinania od dołu i odrzucasz te wartości. Na przykład 10% średnia obcięta jest powszechna; w takim przypadku odliczasz od najniższej wartości, dopóki nie przejdziesz 10% wszystkich danych w zestawie. Wartości poniżej tego znaku są odłożone na bok. Podobnie odliczasz od najwyższej wartości, aż przekroczysz swój procent przycinania, i odkładasz wszystkie wartości na bok. Pozostało ci już średnio 80%. Bierzesz średnią z tego, i to jest twoja średnia obcięta 10%. (Pamiętaj, że możesz przycinać nierówne proporcje z dwóch ogonów lub przycinać tylko jeden ogon, ale te podejścia są mniej powszechne i nie wydają się pasować do twojej sytuacji.)
Pomyśl teraz, co by się stało, gdybyś obliczył 50% średnią obciętą. Dolna połowa zostałaby odłożona na bok, podobnie jak górna połowa. Zostanie ci tylko jedna wartość na środku (zwykle). Przyjmiesz średnią tego (co oznacza, że po prostu weźmiesz tę wartość) jako swoją przyciętą średnią. Należy jednak pamiętać, że ta wartość jest medianą. Innymi słowy, mediana jest średnią obciętą (jest średnią 50% przyciętą). To jest po prostu bardzo agresywny. Zakłada zasadniczo, że 99% twoich danych jest zanieczyszczonych. Zapewnia to najwyższą ochronę przed wartościami odstającymi kosztem ostatecznej utraty mocy / wydajności .
Domyślam się, że mediana / 50% średnia obcięta jest o wiele bardziej agresywna niż jest to konieczne dla twoich danych i jest zbyt marnotrawstwem dostępnych informacji. Jeśli masz jakieś pojęcie o proporcji wartości odstających, użyłbym tych informacji, aby ustawić procent przycinania i zastosować odpowiednią przyciętą średnią. Jeśli nie masz podstaw do wybrania procentu przycinania, możesz wybrać jeden na podstawie weryfikacji krzyżowej lub użyć solidnej analizy regresji z tylko przechwyceniem.
źródło
Przede wszystkim usuń nieprawidłowe dane.
Po drugie, nie trzeba usuwać wartości odstających, ponieważ są to obserwowane wartości. W niektórych przypadkach jest to przydatne (jak w regresji liniowej), ale w twoim przypadku nie widzę sensu.
Wreszcie, wolisz zastosować medianę, ponieważ dokładniej jest znaleźć środek swoich danych. Jak powiedziałeś, średnia może być wrażliwa na wartości odstające (użycie przyciętej średniej może być stronnicze).
źródło