Hastie i in. „Elementy uczenia statystycznego” (2009) rozważają proces generowania danych z i .
Prezentują następujący rozkład wariancji odchyłki oczekiwanego błędu kwadratu prognozy w punkcie (s. 223, wzór 7.9): W moim praca własna Nie określam \ hat f (\ cdot), ale zamiast tego biorę arbitralną prognozę \ hat y (jeśli jest to istotne). Pytanie: Szukam terminu \ text {Bias} ^ 2 + \ text {Wariancja} lub dokładniej \ text {Err} (x_0) - \ text {Błąd nieredukowalny}.
variance
forecasting
prediction
terminology
bias
Richard Hardy
źródło
źródło
Odpowiedzi:
Proponuję redukowalny błąd . Jest to również terminologia przyjęta w paragrafie 2.1.1 Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistics Learning , książka, która jest w zasadzie uproszczeniem ESL + niektórych bardzo fajnych laboratoriów kodu R (z wyjątkiem faktu, że używają
attach
, ale hej, nikt nie jest idealny). Wymienię poniżej powody i wady tej terminologii.Przede wszystkim musimy pamiętać, że nie tylko zakładają mieć średnią 0, ale być również niezależne od (patrz pkt 2.6.1, wzór 2,29 WPN, 2 nd edycji, 12 th drukowania). Oczywiście nie można oszacować podstawie , bez względu na to, którą klasę hipotez (rodzina modeli) wybierzemy i jak dużą próbkę wykorzystamy do poznania naszej hipotezy (oszacuj nasz model). To wyjaśnia, dlaczego nazywa się błędem nieredukowalnym .ϵ X ϵ X H σ2ϵ
Analogicznie wydaje się naturalne zdefiniowanie pozostałej części błędu, , błąd redukowalny . Teraz ta terminologia może wydawać się nieco myląca: w rzeczywistości, przy założeniu, że przyjęliśmy proces generowania danych, możemy udowodnić, żeErr(x0)−σ2ϵ
Zatem błąd redukowalny można zredukować do zera tylko wtedy, gdy (zakładając oczywiście, że mamy spójny estymator). Jeśli , nie możemy doprowadzić błędu redukowalnego do zera, nawet w granicach nieskończonej wielkości próbki. Jednak nadal jest to jedyna część naszego błędu, którą można zmniejszyć, jeśli nie wyeliminować, poprzez zmianę wielkości próby, wprowadzenie regularyzacji (skurczu) w naszym estymatorze itp. Innymi słowy, wybierając inną opcję w naszej rodzinie modeli.E[Y|X=x]∈H E[Y|X=x]∉H f^(x)
Zasadniczo, redukowalny nie oznacza zerowania (fuj!), Ale sens tej części błędu, który można zmniejszyć, nawet jeśli niekoniecznie zostanie on arbitralnie mały. Zauważ też, że w zasadzie błąd ten można zredukować do 0, powiększając aż będzie zawierać . W przeciwieństwie do tego, nie może być zmniejszona, bez względu na wielkość tak, ponieważ .H E[Y|X=x] σ2ϵ H ϵ⊥X
źródło
W systemie, dla którego wszystkie zjawiska fizyczne zostały odpowiednio modelowane, pozostałością byłby hałas. Jednak w błędzie modelu danych występuje zasadniczo więcej struktur niż tylko szum. Na przykład samo odchylenie modelowania i szum nie wyjaśniają reszt krzywoliniowych, tj. Niemodelowanej struktury danych. Całość niewyjaśnionej frakcji wynosi , która może polegać na fałszywym przedstawieniu fizyki, a także stronniczości i hałasu o znanej strukturze. Jeśli przez odchylenie rozumiemy tylko błąd w szacowaniu średniej1−R2 y , przez „błąd nieredukowalny” rozumiemy hałas, a przez wariancję rozumiemy systemowy błąd fizyczny modelu, wówczas suma odchylenia (kwadrat) i systemowy błąd fizyczny nie jest niczym szczególnym, jest to po prostu błąd, który nie jest hałasem . Termin (kwadrat) błędna rejestracja może być do tego użyty w określonym kontekście, patrz poniżej. Jeśli chcesz powiedzieć błąd niezależny od , w przeciwieństwie do błędu, który jest funkcjąn n , powiedz to. IMHO, żaden błąd nie jest nieredukowalny, tak że właściwość nieredukowalności wprowadza w błąd w takim stopniu, że dezorientuje bardziej niż oświetla.
Dlaczego nie podoba mi się termin „redukowalność”? Cuchnie tautologią autoreferencyjną, jak w aksjomacie redukowalności . Zgadzam się z Russellem w 1919 r., Że „nie widzę żadnego powodu, aby sądzić, że aksjomat redukowalności jest logicznie konieczny, co miałoby na myśli stwierdzenie, że jest to prawdą we wszystkich możliwych światach. Dopuszczenie tego aksjomatu do systemu logika jest zatem wadą ... wątpliwym założeniem. ”
Poniżej znajduje się przykład ustrukturyzowanych reszt z powodu niepełnego modelowania fizycznego. Reprezentuje to resztki ze zwykłego dopasowania najmniejszych kwadratów o skalowanym rozkładzie gamma, tj. Zmiennym gamma (GV), do próbek radioaktywności nerkowego kłębuszkowego przefiltrowanego radiofarmaceutyku [ 1 ]. Zauważ, że im więcej danych jest odrzucanych ( dla każdej próbki czasowej), tym lepszy model staje się taki, że redukowalność zmniejsza się wraz z większym zakresem próbek.n=36
Warto zauważyć, że gdy upuszcza się pierwszą próbkę po pięciu minutach, fizyka poprawia się, ponieważ postępuje sekwencyjnie, gdy upuszcza się wczesne próbki do 60 minut. To pokazuje, że chociaż GV ostatecznie tworzy dobry model stężenia leku w osoczu, coś innego dzieje się we wczesnych czasach.
Rzeczywiście, jeśli jeden zwołuje dwa rozkłady gamma, jeden dla wczesnego czasu, krążenie leku i jeden dla klirensu narządów, ten rodzaj błędu, błąd modelowania fizycznego, można zmniejszyć do mniej niż [ 2 ]. Poniżej znajduje się ilustracja tego splotu.1%
Z tego ostatniego przykładu, dla pierwiastka kwadratowego zliczeń w funkcji czasu, odchylenia osi są znormalizowanymi odchyleniami w sensie błędu szumu Poissona. Taki wykres jest obrazem, w przypadku którego błędami dopasowania są błędna rejestracja obrazu w wyniku zniekształceń lub wypaczenia. W tym kontekście i tylko w tym kontekście, błędna rejestracja jest błędem plus błąd modelowania, a całkowity błąd to błędna rejestracja plus błąd szumu.y
źródło