Usuwanie wartości odstających na podstawie „2,5-krotności RMSE”

13

W Kahneman i Deaton (2010) autorzy piszą:

Ta regresja wyjaśnia 37% wariancji, z pierwiastkowym średnim błędem kwadratowym (RMSE) wynoszącym 0,67852. Aby wyeliminować wartości odstające i nieprawdopodobne dochody, porzuciliśmy obserwacje, w których wartość bezwzględna różnicy między przychodem z dziennika a jego prognozą przekroczyła 2,5-krotność RMSE.

Czy to powszechna praktyka? Jaka jest intuicja? Wydaje się nieco dziwne zdefiniowanie wartości odstającej na podstawie modelu, który może nie być dokładnie określony. Czy wyznaczanie wartości odstających nie powinno opierać się na teoretycznych podstawach tego, co stanowi prawdopodobną wartość, a nie na tym, jak dobrze twój model przewiduje wartości rzeczywiste?


: Daniel Kahneman, Angus Deaton (2010): Wysokie dochody poprawiają ocenę życia, ale nie samopoczucie emocjonalne. Postępowania z National Academy of Sciences wrzesień 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107

Język wężycy
źródło
1
Kiedy podajesz cytat z artykułu, zawsze podawaj numer referencyjny zawierający numer strony .
Ben - Przywróć Monikę
7
Nie mogę powiedzieć, czy jest to „powszechna praktyka”, ale mam nadzieję, że nie. Automatyczne usuwanie „wartości odstających” jest zasadniczo złym pomysłem. Być może twój model lub kryterium usunięcia nie jest dobre, może dzieje się coś nowego (początek kryzysu, nowe możliwości przebudzenia), którego nie powinieneś ignorować. // Inaczej jest, jeśli możesz prześledzić podejrzaną wartość błędu wprowadzania danych lub awarii sprzętu, lub jeśli wartość jest po prostu absurdalna (wysoki mężczyzna 16'2 ", facet z 61 naliczonymi godzinami we wtorek, 25min lotu) SFO-ORD), ale nie dlatego, że nie pasuje do modelu. Znam startup, który tak się zepsuł
BruceET
7
Ważność statystyczną tego podejścia odzwierciedla absurdalna liczba miejsc po przecinku, które zgłaszają dla RMSE.
Frans Rodenburg
To wydaje się być prymitywnym / bohaterskim założeniem do pytania, które zadałem kilka miesięcy temu: stats.stackexchange.com/questions/390051/…
Adrian

Odpowiedzi:

30

Powód porzucenia tych danych jest podany w cytacie: mianowicie „wyeliminować wartości odstające i nieprawdopodobne dochody”. Fakt, że odnoszą się do obu tych rzeczy łącznie, oznacza, że ​​przyznają, że przynajmniej niektóre z ich wartości odstających nie są nieprawdopodobne, a w każdym razie nie podają argumentu, dlaczego wartości o dużej wartości rezydualnej należy uznać za „niewiarygodne” „wartości dochodów. W ten sposób skutecznie usuwają punkty danych, ponieważ reszty są wyższe niż oczekiwano w ich modelu regresji. Jak stwierdziłem w innych odpowiedziach tutaj , jest to równoznaczne z wymaganiem od rzeczywistości zgodności z założeniami twojego modelu i ignorowaniem części rzeczywistości, które są niezgodne z tymi założeniami.

Niezależnie od tego, czy jest to powszechna praktyka, jest to okropna praktyka. Dzieje się tak, ponieważ trudno jest poradzić sobie z odległymi punktami danych, a analityk nie chce ich odpowiednio modelować (np. Stosując model, który pozwala na wyższą kurtozę pod względem błędów), więc po prostu usuwają części rzeczywistości, które nie odpowiadają ich zdolności do przeprowadzania modelowania statystycznego. Ta praktyka jest statystycznie niepożądana i prowadzi do wniosków, które systematycznie nie doceniają wariancji i kurtozy w kategoriach błędów. Autorzy tego artykułu podają, że ze względu na usunięcie tych wartości odstąpili o 3,22% swoich danych (s. 16490). Ponieważ większość tych punktów danych byłaby bardzo wysokimi dochodami, rodzi to poważne wątpliwości co do ich zdolności do wyciągania solidnych wniosków na temat wpływu wysokich dochodów (co jest celem ich pracy).

Ben - Przywróć Monikę
źródło
Jak śmiesz krytykować ten Daniel Kahneman! Żarty na bok, to bardzo dobre punkty +1.
Tim
11
Kahneman jest bardzo dobrym psychologiem, którego książki lubiłem i uważałem za pomocne. Każdy z nich może mieć po pięćdziesiąt nagród Nobla - nie zmieniłoby to faktu, że masowe usuwanie „wartości odstających” jest straszną praktyką statystyczną.
Ben - Przywróć Monikę
3
Oczywiście zgadzam się z tobą. Nie myślałem, że to trzeba powiedzieć.
Nick Cox,
1
@NickCox Masz na myśli tak zwaną „Nagrodę Pamięci Nobla” : jestem pewien, że wiesz, że nie został ustanowiony przez Nobla i tak naprawdę nie ma z nim nic wspólnego. Oficjalna nazwa to podobno „Nagroda Sveriges Riksbank w dziedzinie nauk ekonomicznych ku pamięci Alfreda Nobla”.
ameba mówi Przywróć Monikę
1
Jesteś pewien, że to wiem i rzeczywiście masz rację. Zawsze autorytatywny EJMR niegdyś pisał o mnie „Nie, nigdy nie wygra Nobla”, co oznacza tę nagrodę.
Nick Cox