W Kahneman i Deaton (2010) autorzy piszą:
Ta regresja wyjaśnia 37% wariancji, z pierwiastkowym średnim błędem kwadratowym (RMSE) wynoszącym 0,67852. Aby wyeliminować wartości odstające i nieprawdopodobne dochody, porzuciliśmy obserwacje, w których wartość bezwzględna różnicy między przychodem z dziennika a jego prognozą przekroczyła 2,5-krotność RMSE.
Czy to powszechna praktyka? Jaka jest intuicja? Wydaje się nieco dziwne zdefiniowanie wartości odstającej na podstawie modelu, który może nie być dokładnie określony. Czy wyznaczanie wartości odstających nie powinno opierać się na teoretycznych podstawach tego, co stanowi prawdopodobną wartość, a nie na tym, jak dobrze twój model przewiduje wartości rzeczywiste?
: Daniel Kahneman, Angus Deaton (2010): Wysokie dochody poprawiają ocenę życia, ale nie samopoczucie emocjonalne. Postępowania z National Academy of Sciences wrzesień 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107
źródło
Odpowiedzi:
Powód porzucenia tych danych jest podany w cytacie: mianowicie „wyeliminować wartości odstające i nieprawdopodobne dochody”. Fakt, że odnoszą się do obu tych rzeczy łącznie, oznacza, że przyznają, że przynajmniej niektóre z ich wartości odstających nie są nieprawdopodobne, a w każdym razie nie podają argumentu, dlaczego wartości o dużej wartości rezydualnej należy uznać za „niewiarygodne” „wartości dochodów. W ten sposób skutecznie usuwają punkty danych, ponieważ reszty są wyższe niż oczekiwano w ich modelu regresji. Jak stwierdziłem w innych odpowiedziach tutaj , jest to równoznaczne z wymaganiem od rzeczywistości zgodności z założeniami twojego modelu i ignorowaniem części rzeczywistości, które są niezgodne z tymi założeniami.
Niezależnie od tego, czy jest to powszechna praktyka, jest to okropna praktyka. Dzieje się tak, ponieważ trudno jest poradzić sobie z odległymi punktami danych, a analityk nie chce ich odpowiednio modelować (np. Stosując model, który pozwala na wyższą kurtozę pod względem błędów), więc po prostu usuwają części rzeczywistości, które nie odpowiadają ich zdolności do przeprowadzania modelowania statystycznego. Ta praktyka jest statystycznie niepożądana i prowadzi do wniosków, które systematycznie nie doceniają wariancji i kurtozy w kategoriach błędów. Autorzy tego artykułu podają, że ze względu na usunięcie tych wartości odstąpili o 3,22% swoich danych (s. 16490). Ponieważ większość tych punktów danych byłaby bardzo wysokimi dochodami, rodzi to poważne wątpliwości co do ich zdolności do wyciągania solidnych wniosków na temat wpływu wysokich dochodów (co jest celem ich pracy).
źródło