Mam model predykcyjny przetestowany czterema metodami, jak widać na poniższym rysunku. Atrybut prognozowany przez model mieści się w zakresie 0–8.
Możesz zauważyć, że istnieje jedna górna granica i trzy dolne granice wskazane przez wszystkie metody. Zastanawiam się, czy właściwe jest usunięcie tych wystąpień z danych? Czy jest to rodzaj oszustwa w celu ulepszenia modelu prognozowania?
Odpowiedzi:
Prawie zawsze oszustwo polega na usuwaniu obserwacji w celu ulepszenia modelu regresji. Obserwacje należy porzucać tylko wtedy, gdy naprawdę sądzisz, że są to rzeczywiście wartości odstające.
Na przykład masz szereg czasowy z czujnika tętna podłączonego do inteligentnego zegarka. Jeśli spojrzysz na serię, łatwo zauważyć, że wystąpiłyby błędne obserwacje przy odczytach takich jak 300 bps. Powinny zostać usunięte, ale nie dlatego, że chcesz ulepszyć model (cokolwiek to znaczy). Są to błędy w czytaniu, które nie mają nic wspólnego z twoim tętnem.
Jedną z rzeczy, na które należy uważać, jest korelacja błędów z danymi. W moim przykładzie można argumentować, że masz błędy, gdy monitor pracy serca jest przemieszczany podczas ćwiczeń takich jak bieganie lub skakanie. Co sprawi, że błędy te będą skorelowane z częstością jelit. W takim przypadku należy zachować ostrożność przy usuwaniu tych wartości odstających i błędów, ponieważ nie są one przypadkowe
AKTUALIZACJA W twoim przypadku sugeruję wyciągnięcie tych punktów danych i przyjrzenie się im bliżej. Czy to może być awaria przyrządu laboratoryjnego? Zakłócenia zewnętrzne? Próbka wada? itp.
Następnie spróbuj ustalić, czy presnece tych wartości odstających może być skorelowany z tym, co mierzysz, jak w przykładzie, który podałem. Jeśli istnieje korelacja, nie ma na to prostego sposobu. Jeśli nie ma korelacji, możesz usunąć wartości odstające
źródło
It is always a cheating to remove outliers to improve a regression model.
Czy uważasz, że regresja splajnu jest oszustwem ? FWIW robi obserwacje obniżające wagę w celu ulepszenia modelu [lokalnej] regresji ~Początkowo chciałem opublikować to jako komentarz do innej odpowiedzi, ale zajęło to zbyt wiele czasu.
Kiedy patrzę na twój model, niekoniecznie zawiera on jedną dużą grupę i pewne wartości odstające. Moim zdaniem zawiera 1 grupę średniej wielkości (od 1 do -1), a następnie 6 mniejszych grup, z których każda znajduje się między 2 liczbami całkowitymi. Widać wyraźnie, że po osiągnięciu liczby całkowitej obserwowanych jest mniej częstotliwości przy tych częstotliwościach. Jedynym specjalnym punktem jest 0, gdzie tak naprawdę nie ma zauważalnego spadku obserwacji.
Moim zdaniem warto zastanowić się, dlaczego ta dystrybucja jest rozpowszechniana w następujący sposób:
Podczas pomiaru odrębnych ludzkich działań zawsze będziesz mieć wartości odstające. Ciekawe może być, dlaczego te wartości odstające nie pasują do twojego modelu i jak można je wykorzystać do poprawy przyszłych iteracji twojego modelu.
źródło
Usunięcie wartości odstających i zbudowanie modelu ma tylko zalety i wady tylko dla „normalnego wzorca”.
Plusy: wydajność modelu jest lepsza. Intuicja polega na tym, że JEDEN model bardzo trudno jest uchwycić zarówno „normalny wzór”, jak i „wzór odstający”. Usuwamy więc wartości odstające i mówimy, że budujemy model tylko dla „normalnego wzorca”.
Minusy: nie będziemy w stanie przewidzieć wartości odstających. Innymi słowy, przypuśćmy, że wprowadzimy nasz model do produkcji, brakuje pewnych prognoz z modelu
Sugerowałbym usunięcie wartości odstających i zbudowanie modelu, a jeśli to możliwe, spróbuj zbudować osobny model tylko dla wartości odstających.
Jeśli chodzi o słowo „oszustwo”, jeśli piszesz papier i wyraźnie wymieniasz, w jaki sposób definiujesz i usuwasz wartości odstające, a wzmianka o ulepszonej wydajności dotyczy tylko czystych danych. To nie jest oszukiwanie.
źródło
if it is fine to produce no output in production
to znaczy to samo? Tak więc, jeśli zaczniemy używać naszego modelu w prawdziwej aplikacji do testowania zmiennej wynikowej i użyć przewidywanego wyniku w aplikacji, to nie byłoby w porządku usuwanie wartości odstających (szczególnie jeśli jest ich wiele, jak wspomniałeś)? Czy o to ci chodziło?Uważam, że usunięcie wartości odstających jest uzasadnione tylko wtedy, gdy ma się ku temu poważny powód jakościowy. Rozumiem przez to, że ktoś ma informację, że inna zmienna, która nie znajduje się w modelu, wpływa na obserwacje odstające. Następnie można wybrać usunięcie wartości odstającej lub dodanie dodatkowych zmiennych.
Zauważyłem, że gdy obserwuję wartości odstające w moim zbiorze danych, badając, aby ustalić, dlaczego występuje wartość odstająca, dowiaduję się więcej o moich danych i możliwych innych modelach do rozważenia.
źródło
Nie jestem nawet przekonany, że są to „wartości odstające”. Możesz wyglądać normalnie na wykres prawdopodobieństwa. Czy są to dane lub pozostałości po dopasowaniu modelu?
źródło