Istnieje dość stary post na blogu Williama Briggsa, który analizuje pułapki wygładzania danych i przenoszenia tych wygładzonych danych do analizy. Kluczowym argumentem jest mianowicie:
Jeśli w chwili szaleństwa robisz gładkie dane szeregów czasowych i używasz ich jako danych wejściowych do innych analiz, znacznie zwiększasz prawdopodobieństwo oszukiwania się! Wynika to z faktu, że wygładzanie indukuje fałszywe sygnały - sygnały, które wyglądają realnie w przypadku innych metod analitycznych. Bez względu na to, czy będziesz zbyt pewny swoich wyników końcowych!
Jednak staram się znaleźć wyczerpujące dyskusje na temat tego, kiedy należy wygładzić, a kiedy nie.
Czy wygładzanie się podczas korzystania z tych wygładzonych danych jako danych wejściowych do innych analiz jest złe, czy może występują inne sytuacje, w których wygładzanie nie jest zalecane? I odwrotnie, czy są sytuacje, w których zaleca się wygładzenie?
źródło
Odpowiedzi:
Wygładzanie wykładnicze jest klasyczną techniką stosowaną w nieszablonowym prognozowaniu szeregów czasowych. Tak długo, jak używasz go tylko do bezpośredniego prognozowania i nie używasz dopasowanych dopasowań w próbce jako danych wejściowych do innego eksploracji danych lub algorytmu statystycznego, krytyka Briggsa nie ma zastosowania. (W związku z tym jestem sceptycznie nastawiony do wykorzystywania go do „wygładzania danych do prezentacji”, jak mówi Wikipedia - może to być mylące, ukrywając wygładzoną zmienność).
Oto wprowadzenie do wygładzania wykładniczego.
A oto (10-letni, ale wciąż aktualny) artykuł przeglądowy.
EDYCJA: wydaje się, że istnieją wątpliwości co do zasadności krytyki Briggsa, prawdopodobnie pod wpływem jej opakowania . W pełni zgadzam się, że ton Briggsa może być szorstki. Chciałbym jednak zilustrować, dlaczego uważam, że ma on rację.
Poniżej symuluję 10 000 par szeregów czasowych, po 100 obserwacji każda. Wszystkie serie to biały szum, bez żadnej korelacji. Zatem uruchomienie standardowego testu korelacji powinno dać wartości p, które są równomiernie rozłożone na [0,1]. Jak to się dzieje (histogram po lewej stronie poniżej).
Załóżmy jednak, że najpierw wygładzamy każdą serię i stosujemy test korelacji do wygładzonych danych. Pojawia się coś zaskakującego: ponieważ usunęliśmy wiele zmienności z danych, otrzymujemy wartości p, które są zdecydowanie zbyt małe . Nasz test korelacji jest bardzo stronniczy. Będziemy więc zbyt pewni związku między oryginalną serią, co mówi Briggs.
Pytanie naprawdę zależy od tego, czy wykorzystujemy wygładzone dane do prognozowania, w którym to przypadku wygładzanie jest poprawne, czy też uwzględniamy je jako dane wejściowe w pewnym algorytmie analitycznym, w którym to przypadku usunięcie zmienności będzie symulować większą pewność naszych danych niż jest to uzasadnione. Ta nieuzasadniona pewność danych wejściowych przenosi się na wyniki końcowe i należy ją uwzględnić, w przeciwnym razie wszystkie wnioski będą zbyt pewne. (I oczywiście otrzymamy również zbyt małe przedziały prognozowania, jeśli użyjemy modelu opartego na „zawyżonej pewności” do prognozowania).
źródło
Twierdzenie, że wygładzanie jest nieodpowiednie dla analizy modelowania, skazuje go na wyższy średni błąd kwadratowy, niż mógłby w innym przypadku. Średni błąd kwadratowy lub błąd MSE można rozłożyć na trzy składniki, kwadrat wartości zwanej `` stronniczością '', wariancję i pewien błąd nieredukowalny. (Jest to pokazane w poniższych cytatach.) Modele nadmiernie wygładzone mają wysokie odchylenie, nawet jeśli mają niską wariancję, a zbyt szorstkie modele mają duże wariancje i niskie odchylenie.
Nie ma w tym nic filozoficznego. Jest to charakterystyka matematyczna. Nie zależy to od charakteru hałasu ani od charakteru systemu.
Widzieć:
http://scott.fortmann-roe.com/docs/BiasVariance.html
https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf
http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Ma to pochodzenie rozkładu.)
http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei robi to samo w inny sposób i wprowadza to, co dzieje się, gdy ktoś próbuje przewidzieć.)
Klasyczne statystyki prawie zawsze nalegały na obiektywne szacunki. W 1955 r. Statystyk Charles Stein ze Stanford wykazał, że istniały kombinacje obiektywnych estymatorów, które miały niższe MSE dla ważnych szczególnych przypadków, w szczególności to, co nazwano ESTIMATORAMI JAMES-STEINA. Bradley Efron napisał bardzo przystępny tekst o tej rewolucji wglądu: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
źródło