Rozkład wariancji odchylenia: termin oczekiwanego kwadratu błędu prognozy mniej błędu nieredukowalnego

9

Hastie i in. „Elementy uczenia statystycznego” (2009) rozważają proces generowania danych z i .

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

Prezentują następujący rozkład wariancji odchyłki oczekiwanego błędu kwadratu prognozy w punkcie (s. 223, wzór 7.9): W moim praca własna Nie określam \ hat f (\ cdot), ale zamiast tego biorę arbitralną prognozę \ hat y (jeśli jest to istotne). Pytanie: Szukam terminu \ text {Bias} ^ 2 + \ text {Wariancja} lub dokładniej \ text {Err} (x_0) - \ text {Błąd nieredukowalny}. x0

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Bias2+Variance
Err(x0)Irreducible error.
Richard Hardy
źródło
3
Jakie jest tutaj pytanie?
Michael R. Chernick
1
@sntx, dzięki za pomysł. Ale jakoś to nie brzmi dobrze. Może błąd modelowania (tj. Błąd wynikający z błędnej specyfikacji modelu i nieprecyzyjnego oszacowania modelu), ale wtedy nie ma sensu, jeśli nie ma modelu generującego prognozy (np. Prognozy ekspertów).
Richard Hardy,
1
@DeltaIV, to raczej dobre. Myślę jednak, że termin jest obciążony; wydaje się, że prognoza jest zła i moglibyśmy zrobić lepiej. Załóżmy jednak, że zrobiliśmy co w naszej mocy, aby uzyskać dane. Tak więc akurat wybraliśmy właściwy model (bez „odchylenia modelu”), ale próbka jest po prostu zbyt mała, aby idealnie oszacować współczynniki. Wariancja oszacowania („wariancja modelu”) jest zatem naprawdę nieredukowalna dla danej wielkości próby - podczas gdy termin „błąd redukowalny” sugeruje, że tak nie jest. Nie dlatego, że jestem pewien, że możemy wymyślić lepszy termin, nadal chciałbym dążyć do tego.
Richard Hardy
1
@DeltaIV, OK, mam teraz intuicję, w jakim sensie można ją zredukować. Mimo to termin ten może wprowadzać w błąd, jeśli zostanie użyty bez dalszych wyjaśnień (tak jak musiałeś mi to wyjaśnić). Twoja ostatnia sugestia jest precyzyjna, co jest naprawdę miłe, ale tak jak powiedziałeś, jest dość skomplikowane.
Richard Hardy
1
@DeltaIV, nie zamierzałem tak brzmieć. To nie jest nic osobistego; moje (mam nadzieję, przekonujące) argumenty znajdują się powyżej w komentarzach. Ale dziękuję za rozmowę ze mną, to pomaga.
Richard Hardy

Odpowiedzi:

4

Proponuję redukowalny błąd . Jest to również terminologia przyjęta w paragrafie 2.1.1 Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistics Learning , książka, która jest w zasadzie uproszczeniem ESL + niektórych bardzo fajnych laboratoriów kodu R (z wyjątkiem faktu, że używają attach, ale hej, nikt nie jest idealny). Wymienię poniżej powody i wady tej terminologii.


Przede wszystkim musimy pamiętać, że nie tylko zakładają mieć średnią 0, ale być również niezależne od (patrz pkt 2.6.1, wzór 2,29 WPN, 2 nd edycji, 12 th drukowania). Oczywiście nie można oszacować podstawie , bez względu na to, którą klasę hipotez (rodzina modeli) wybierzemy i jak dużą próbkę wykorzystamy do poznania naszej hipotezy (oszacuj nasz model). To wyjaśnia, dlaczego nazywa się błędem nieredukowalnym .ϵXϵXHσϵ2

Analogicznie wydaje się naturalne zdefiniowanie pozostałej części błędu, , błąd redukowalny . Teraz ta terminologia może wydawać się nieco myląca: w rzeczywistości, przy założeniu, że przyjęliśmy proces generowania danych, możemy udowodnić, żeErr(x0)σϵ2

f(x)=E[Y|X=x]

Zatem błąd redukowalny można zredukować do zera tylko wtedy, gdy (zakładając oczywiście, że mamy spójny estymator). Jeśli , nie możemy doprowadzić błędu redukowalnego do zera, nawet w granicach nieskończonej wielkości próbki. Jednak nadal jest to jedyna część naszego błędu, którą można zmniejszyć, jeśli nie wyeliminować, poprzez zmianę wielkości próby, wprowadzenie regularyzacji (skurczu) w naszym estymatorze itp. Innymi słowy, wybierając inną opcję w naszej rodzinie modeli.E[Y|X=x]HE[Y|X=x]Hf^(x)

Zasadniczo, redukowalny nie oznacza zerowania (fuj!), Ale sens tej części błędu, który można zmniejszyć, nawet jeśli niekoniecznie zostanie on arbitralnie mały. Zauważ też, że w zasadzie błąd ten można zredukować do 0, powiększając aż będzie zawierać . W przeciwieństwie do tego, nie może być zmniejszona, bez względu na wielkość tak, ponieważ .HE[Y|X=x]σϵ2HϵX

DeltaIV
źródło
Jeśli hałas jest błędem nieredukowalnym, nie jest nieredukowalny. Musisz to jakoś zmotywować, nie mogę tego zrobić dla siebie.
Carl
W 2.1.1 przykładem jest „oznaczenie jakiegoś leku we krwi”. Pierwszy przykład, który podam poniżej, jest dokładnie taki. W tym teście tak zwany nieredukowalny błąd pomiaru nie jest tego rodzaju. Składa się z szumu zliczającego, który jest zwykle redukowany przez zliczenie 10000 lub więcej zdarzeń, błędu pipetowania, który jest prawie wykładniczo rozłożony, oraz innych błędów technicznych. Aby jeszcze bardziej zmniejszyć te „nieredukowalne” błędy, zalecam zastosowanie mediany trzech probówek zliczających dla każdej próbki. Termin nieredukowalny to zły żargon, spróbuj ponownie.
Carl
1
@Delta, dziękuję za odpowiedź. Jednorazowy „błąd redukcyjny” mógł nie być zbyt przekonujący, ale biorąc pod uwagę kontekst i dyskusję, wygląda całkiem nieźle!
Richard Hardy
Nie sądzę, aby celem rozwijania żargonu było wprowadzanie ludzi w błąd. Jeśli chcesz powiedzieć błąd niezależny od , a błąd, który jest funkcją , powiedz, co masz na myśli. nn
Carl
@DeltaV Uważam, że redukowalność jest wątpliwym założeniem, patrz poniżej.
Carl
0

W systemie, dla którego wszystkie zjawiska fizyczne zostały odpowiednio modelowane, pozostałością byłby hałas. Jednak w błędzie modelu danych występuje zasadniczo więcej struktur niż tylko szum. Na przykład samo odchylenie modelowania i szum nie wyjaśniają reszt krzywoliniowych, tj. Niemodelowanej struktury danych. Całość niewyjaśnionej frakcji wynosi , która może polegać na fałszywym przedstawieniu fizyki, a także stronniczości i hałasu o znanej strukturze. Jeśli przez odchylenie rozumiemy tylko błąd w szacowaniu średniej1R2y, przez „błąd nieredukowalny” rozumiemy hałas, a przez wariancję rozumiemy systemowy błąd fizyczny modelu, wówczas suma odchylenia (kwadrat) i systemowy błąd fizyczny nie jest niczym szczególnym, jest to po prostu błąd, który nie jest hałasem . Termin (kwadrat) błędna rejestracja może być do tego użyty w określonym kontekście, patrz poniżej. Jeśli chcesz powiedzieć błąd niezależny od , w przeciwieństwie do błędu, który jest funkcjąnn , powiedz to. IMHO, żaden błąd nie jest nieredukowalny, tak że właściwość nieredukowalności wprowadza w błąd w takim stopniu, że dezorientuje bardziej niż oświetla.

Dlaczego nie podoba mi się termin „redukowalność”? Cuchnie tautologią autoreferencyjną, jak w aksjomacie redukowalności . Zgadzam się z Russellem w 1919 r., Że „nie widzę żadnego powodu, aby sądzić, że aksjomat redukowalności jest logicznie konieczny, co miałoby na myśli stwierdzenie, że jest to prawdą we wszystkich możliwych światach. Dopuszczenie tego aksjomatu do systemu logika jest zatem wadą ... wątpliwym założeniem. ”

Poniżej znajduje się przykład ustrukturyzowanych reszt z powodu niepełnego modelowania fizycznego. Reprezentuje to resztki ze zwykłego dopasowania najmniejszych kwadratów o skalowanym rozkładzie gamma, tj. Zmiennym gamma (GV), do próbek radioaktywności nerkowego kłębuszkowego przefiltrowanego radiofarmaceutyku [ 1 ]. Zauważ, że im więcej danych jest odrzucanych ( dla każdej próbki czasowej), tym lepszy model staje się taki, że redukowalność zmniejsza się wraz z większym zakresem próbek.n=36

wprowadź opis zdjęcia tutaj

Warto zauważyć, że gdy upuszcza się pierwszą próbkę po pięciu minutach, fizyka poprawia się, ponieważ postępuje sekwencyjnie, gdy upuszcza się wczesne próbki do 60 minut. To pokazuje, że chociaż GV ostatecznie tworzy dobry model stężenia leku w osoczu, coś innego dzieje się we wczesnych czasach.

Rzeczywiście, jeśli jeden zwołuje dwa rozkłady gamma, jeden dla wczesnego czasu, krążenie leku i jeden dla klirensu narządów, ten rodzaj błędu, błąd modelowania fizycznego, można zmniejszyć do mniej niż [ 2 ]. Poniżej znajduje się ilustracja tego splotu.1%

wprowadź opis zdjęcia tutaj

Z tego ostatniego przykładu, dla pierwiastka kwadratowego zliczeń w funkcji czasu, odchylenia osi są znormalizowanymi odchyleniami w sensie błędu szumu Poissona. Taki wykres jest obrazem, w przypadku którego błędami dopasowania są błędna rejestracja obrazu w wyniku zniekształceń lub wypaczenia. W tym kontekście i tylko w tym kontekście, błędna rejestracja jest błędem plus błąd modelowania, a całkowity błąd to błędna rejestracja plus błąd szumu.y

Carl
źródło
Rzeczywiście, na tym właśnie polega powyższy rozkład. Ale twoja odpowiedź lepiej posłuży jako komentarz, ponieważ nie odnosi się do rzeczywistego pytania. A może to?
Richard Hardy
Dzięki, ale odpowiedź właśnie odeszła od tematu. Trudno mi znaleźć związek między faktycznym pytaniem (jak zadzwonićBias2+Variance) i to wszystko ...
Richard Hardy
Ponownie odpowiadasz na inne pytanie. Prawidłowa odpowiedź na złe pytanie jest niestety złą odpowiedzią (uwaga dla siebie: przypadkiem, wyjaśniłem to wczoraj moim studentom). Nie pytam, jak znaczące jest to wyrażenie (ma znaczenie dla kogoś, kto przeczytał podręcznik ESL i / lub pracował w stosowanym uczeniu maszynowym), proszę o odpowiedni termin. Pytanie jest pozytywne, a nie normatywne. I jest dość prosty i bardzo konkretny.
Richard Hardy
@RichardHardy Bez fizyki pytanie było dla mnie trudne do zrozumienia. Zmieniłem odpowiedź, patrz błędna rejestracja powyżej.
Carl
1
Możesz to zrobić w celu oszacowania procesu, tak, i to jest część błędu redukowalnego. Ale kiedy prognozujesz konkretne wydarzenie, które obejmuje rzut monetą, nie ma sposobu, aby zmniejszyć błąd związany z błędnym przewidywaniem wyniku rzutu monetą. Na tym polega błąd nieredukowalny. Interesujące: w świecie czysto deterministycznym z definicji nie byłoby błędów nieredukowalnych, więc jeśli twoje spojrzenie na świat jest całkowicie deterministyczne, to rozumiem, co masz na myśli. Jednak świat jest stochastyczny w „Elementach statystycznego uczenia się” i ogólnie w statystyce.
Richard Hardy