Czy oszustwo polega na usuwaniu wartości odstających na podstawie wykresu średniego błędu bezwzględnego w celu ulepszenia modelu regresji

15

Mam model predykcyjny przetestowany czterema metodami, jak widać na poniższym rysunku. Atrybut prognozowany przez model mieści się w zakresie 0–8.

Możesz zauważyć, że istnieje jedna górna granica i trzy dolne granice wskazane przez wszystkie metody. Zastanawiam się, czy właściwe jest usunięcie tych wystąpień z danych? Czy jest to rodzaj oszustwa w celu ulepszenia modelu prognozowania?

wprowadź opis zdjęcia tutaj

renakre
źródło
1
(1) Widzę wyniki dla czterech metod, a nie trzech. (2) W jaki sposób usunięcie dowodów zdolności prognozowania mogłoby ulepszyć metody?
whuber
@whuber (1) jest naprawiony. W przypadku (2) oznacza to, że usunięcie wystąpienia, które jest bardzo niedokładnie przewidziane, nie doprowadziłoby ogólnie do lepszej wydajności prognozowania (to właśnie miałem na myśli przez „ulepszenie modelu” ?
renakre
7
usunięcie obserwacji z jakiegokolwiek powodu (powiedzmy 4 najmniej pasujące punkty) samo w sobie jest wyborem modelowym. Należy ocenić skuteczność prognozowania tego drugiego wyboru modelu zbyt . Istotnym punktem jest zachowanie integralności końcowego zestawu testowego stosowanego do oceny wydajności ogólnej metody prognozowania. Z pytania nie wynika jasno, czy planujesz remontować modele (Lasso itp.) Po usunięciu źle przewidywanych danych.
user603
2
Na marginesie chciałbym dodać, że czasami wartości odstające kryją się w wartościach odstających i warto je uważnie przyjrzeć.
Dror Atariah
@DrorAtariah Dzięki Dror, zgadzam się. Ekstremalne przypadki są cenne.
renakre

Odpowiedzi:

22

Prawie zawsze oszustwo polega na usuwaniu obserwacji w celu ulepszenia modelu regresji. Obserwacje należy porzucać tylko wtedy, gdy naprawdę sądzisz, że są to rzeczywiście wartości odstające.

Na przykład masz szereg czasowy z czujnika tętna podłączonego do inteligentnego zegarka. Jeśli spojrzysz na serię, łatwo zauważyć, że wystąpiłyby błędne obserwacje przy odczytach takich jak 300 bps. Powinny zostać usunięte, ale nie dlatego, że chcesz ulepszyć model (cokolwiek to znaczy). Są to błędy w czytaniu, które nie mają nic wspólnego z twoim tętnem.

Jedną z rzeczy, na które należy uważać, jest korelacja błędów z danymi. W moim przykładzie można argumentować, że masz błędy, gdy monitor pracy serca jest przemieszczany podczas ćwiczeń takich jak bieganie lub skakanie. Co sprawi, że błędy te będą skorelowane z częstością jelit. W takim przypadku należy zachować ostrożność przy usuwaniu tych wartości odstających i błędów, ponieważ nie są one przypadkowe

F=kΔx,
FkΔx

Δx

AKTUALIZACJA W twoim przypadku sugeruję wyciągnięcie tych punktów danych i przyjrzenie się im bliżej. Czy to może być awaria przyrządu laboratoryjnego? Zakłócenia zewnętrzne? Próbka wada? itp.

Następnie spróbuj ustalić, czy presnece tych wartości odstających może być skorelowany z tym, co mierzysz, jak w przykładzie, który podałem. Jeśli istnieje korelacja, nie ma na to prostego sposobu. Jeśli nie ma korelacji, możesz usunąć wartości odstające

Aksakal
źródło
2
It is always a cheating to remove outliers to improve a regression model. Czy uważasz, że regresja splajnu jest oszustwem ? FWIW robi obserwacje obniżające wagę w celu ulepszenia modelu [lokalnej] regresji ~
user603
1
Nie zgodziłbym się z tym, że „usuwanie oszustw w celu ulepszenia modelu regresji jest zawsze oszustwem”. istnieje wiele narzędzi do przeprowadzania diagnostyki regresji, a jej celem jest wykrywanie i „usuwanie” wartości odstających i ponowne modelowanie.
Haitao Du
6
@ hxd1011 narzędzia takie jak Grubbs nie mają automatycznie usuwać wartości odstających. Wskazują tylko, że może istnieć wartość odstająca, wtedy decydujesz, czy rzeczywiście jest to wartość odstająca. Jest to bardzo niebezpieczne podejście do poprawy diagnostyki dopasowania poprzez automatyczne usuwanie wartości odstających. Musisz je analizować indywidualnie.
Aksakal
2
Ok, rozumiem. Mój oryginalny język był zbyt sztywny. Zredagowałem zdanie wstępne. Dziękujemy za opinię dla komentujących
Aksakal
1
@renakre, jeśli nie uważasz, że są to wartości odstające, nie usuwaj obserwacji. Należy jednak wziąć pod uwagę miarę dobroci prognozy inną niż błąd kwadratowy. Na przykład, jeśli te przypadki nie są dla Ciebie tak ważne, być może nie musisz ich ważyć kwadratowo i zamiast tego stosować bezwzględne odchylenie itp. Miara powinna odzwierciedlać wagę błędu prognozy, takiego jak straty dolara przy każdym błędzie prognozy . Również fakt, że są to liczby, nie oznacza automatycznie, że nie ma błędów instrumentu, wtyczki stron internetowych, które liczą kliknięcia, mogą zawieść
Aksakal
4

Początkowo chciałem opublikować to jako komentarz do innej odpowiedzi, ale zajęło to zbyt wiele czasu.

Kiedy patrzę na twój model, niekoniecznie zawiera on jedną dużą grupę i pewne wartości odstające. Moim zdaniem zawiera 1 grupę średniej wielkości (od 1 do -1), a następnie 6 mniejszych grup, z których każda znajduje się między 2 liczbami całkowitymi. Widać wyraźnie, że po osiągnięciu liczby całkowitej obserwowanych jest mniej częstotliwości przy tych częstotliwościach. Jedynym specjalnym punktem jest 0, gdzie tak naprawdę nie ma zauważalnego spadku obserwacji.

Moim zdaniem warto zastanowić się, dlaczego ta dystrybucja jest rozpowszechniana w następujący sposób:

  • Dlaczego w rozkładzie liczba obserwacji spada w liczbach całkowitych?
  • dlaczego ten spadek liczby obserwacji nie występuje przy 0?
  • Co jest takiego specjalnego w tych wartościach odstających?

Podczas pomiaru odrębnych ludzkich działań zawsze będziesz mieć wartości odstające. Ciekawe może być, dlaczego te wartości odstające nie pasują do twojego modelu i jak można je wykorzystać do poprawy przyszłych iteracji twojego modelu.

Nzall
źródło
+1. Różnica liczb całkowitych wydaje się nie zawsze odpowiadać liczbom całkowitym, więc może być bardziej, że widzimy wzór, który nie istnieje, ale może to być artefakt gromadzenia danych, kodowania lub dyskretyzacji, który mógłby rzucić światło na danych jako całości. Może być nawet przerwa przy 0, która jest zasłonięta dużą liczbą nakładających się i być może roztrzęsionych kropek. Zdecydowanie warto wrócić do źródła, aby sprawdzić, czy dane są tym, co naszym zdaniem.
Wayne
2

Usunięcie wartości odstających i zbudowanie modelu ma tylko zalety i wady tylko dla „normalnego wzorca”.

  • Plusy: wydajność modelu jest lepsza. Intuicja polega na tym, że JEDEN model bardzo trudno jest uchwycić zarówno „normalny wzór”, jak i „wzór odstający”. Usuwamy więc wartości odstające i mówimy, że budujemy model tylko dla „normalnego wzorca”.

  • Minusy: nie będziemy w stanie przewidzieć wartości odstających. Innymi słowy, przypuśćmy, że wprowadzimy nasz model do produkcji, brakuje pewnych prognoz z modelu

Sugerowałbym usunięcie wartości odstających i zbudowanie modelu, a jeśli to możliwe, spróbuj zbudować osobny model tylko dla wartości odstających.

Jeśli chodzi o słowo „oszustwo”, jeśli piszesz papier i wyraźnie wymieniasz, w jaki sposób definiujesz i usuwasz wartości odstające, a wzmianka o ulepszonej wydajności dotyczy tylko czystych danych. To nie jest oszukiwanie.

Haitao Du
źródło
3
Nie mam nic przeciwko byciu odrzuconym, ale czy ktoś mógłby mi powiedzieć powód?
Haitao Du
Głosowałem :) Czy uważasz, że dobrym pomysłem jest usunięcie wartości odstających, a następnie ponowne próbkowanie danych w celu dalszego testowania modelu prognostycznego?
renakre
1
@renakre Sugeruję, abyś pomyślał o tym, co robić w produkcji. Powiedzmy, że jeśli stwierdzono, że wartość odstająca wynosi tylko 1%, i nie ma sensu wytwarzać żadnej produkcji. Następnie po prostu je usuń. Jeśli stwierdzono, że wartość odstająca wynosi 30% i pomijanie prognoz w produkcji nie jest w porządku. Następnie spróbuj mieć dla niego osobny model.
Haitao Du
Przeważnie testujemy rzeczy, aby sprawdzić, czy możemy przewidzieć jakąś zmienną wynikową. Czy if it is fine to produce no output in productionto znaczy to samo? Tak więc, jeśli zaczniemy używać naszego modelu w prawdziwej aplikacji do testowania zmiennej wynikowej i użyć przewidywanego wyniku w aplikacji, to nie byłoby w porządku usuwanie wartości odstających (szczególnie jeśli jest ich wiele, jak wspomniałeś)? Czy o to ci chodziło?
renakre
1
@renakre Nie żyjesz! Właśnie to zrobiliśmy ostatnio z AITOBOX, gdzie limity prognozy są oparte nie tylko na wagach psi, ale również na próbkach błędów wypełnionych wartościami odstającymi. Odbywa się to nie tylko w przypadku modeli ARIMA, ale także modeli przyczynowych, w których niepewność predyktorów jest również uwzględniana w podobny sposób.
IrishStat
2

Uważam, że usunięcie wartości odstających jest uzasadnione tylko wtedy, gdy ma się ku temu poważny powód jakościowy. Rozumiem przez to, że ktoś ma informację, że inna zmienna, która nie znajduje się w modelu, wpływa na obserwacje odstające. Następnie można wybrać usunięcie wartości odstającej lub dodanie dodatkowych zmiennych.

Zauważyłem, że gdy obserwuję wartości odstające w moim zbiorze danych, badając, aby ustalić, dlaczego występuje wartość odstająca, dowiaduję się więcej o moich danych i możliwych innych modelach do rozważenia.

użytkownik151162
źródło
1
Witamy w stats.SE! Poświęć chwilę, aby zobaczyć naszą wycieczkę . Byłoby pomocne, gdybyś rozszerzył swoją odpowiedź, aby pełniej odpowiedzieć na pytanie (takie jak wyznaczanie wartości odstających na podstawie wykresu pudełkowego, wpływ, jaki ta metoda może mieć na model predykcyjny, i c.).
Tavrock
2

Nie jestem nawet przekonany, że są to „wartości odstające”. Możesz wyglądać normalnie na wykres prawdopodobieństwa. Czy są to dane lub pozostałości po dopasowaniu modelu?

Emil M. Friedman
źródło
są różnicą między wartościami przewidywanymi i rzeczywistymi.
renakre