... oczekiwana strata [błąd kwadratu] może zostać rozłożona na kwadratowy błąd polaryzacji (który opisuje, jak daleko średnie prognozy są od prawdziwego modelu), wariacja wariancji (która opisuje rozkład prognoz wokół średniej), i termin szum (który daje wewnętrzny szum danych).
Patrząc na rozkład kwadratu utraty strat
Widzę tylko dwa terminy: jeden dla odchylenia i drugi dla wariancji estymatora lub predyktora, δ ( X 1 : n ) . W oczekiwanej stracie nie ma dodatkowego terminu hałasu. Tak jak powinno być, ponieważ zmienność jest zmiennością δ ( X 1 : n ) , a nie samej próbki.
Eθ[(θ−δ(X1:n))2]=(θ−Eθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]−δ(X1:n))2]
δ(X1:n)δ(X1:n)
- Czy dekompozycję wariancji odchylenia wstępnego można przeprowadzić z funkcjami strat innymi niż strata kwadratowa?
Moja interpretacja rozkładu odchylenia kwadratowego + wariancji [i sposobu, w jaki go uczę] jest taka, że jest to statystyczny odpowiednik twierdzenia Pythagore'a, a mianowicie, że kwadratowa odległość między estymatorem a punktem w określonym zbiorze jest sumą kwadratowej odległości między estymatorem a zbiorem plus kwadratowa odległość między rzutem prostopadłym na zbiorze a punktem w zbiorze. Każda strata oparta na odległości z n Dla danego zestawu danych modelu istnieje więcej niż jeden model, którego spodziewana strata jest minimalna dla wszystkich modeli, a jeśli tak, to znaczy, że mogą istnieć różne kombinacje odchyleń i wariancji, które dają taka sama minimalna oczekiwana utrata projekcji ortogonalnej, tj. iloczyn wewnętrzny, tj. zasadniczo przestrzenie Hilberta, spełnia ten rozkład.
- Czy dla danego zestawu danych modelu istnieje więcej niż jeden model, którego oczekiwana strata jest minimalna we wszystkich modelach, a jeśli tak, to czy to oznacza, że mogą istnieć różne kombinacje odchylenia i wariancji, które przyniosą taką samą minimalną oczekiwaną stratę?
minθEθ[(θ−δ(X1:n))2]
- Jak obliczyć błąd systematyczny, jeśli nie znasz prawdziwego modelu?
W ogólnym ujęciu odchylenie to odległość między modelem prawdziwym a najbliższym modelem w ramach przyjętej rodziny rozkładów. Jeśli prawdziwy model nie jest znany, błąd można ustalić za pomocą bootstrap.
- Czy istnieją sytuacje, w których bardziej sensowne jest zminimalizowanie stronniczości lub wariancji niż oczekiwanej straty (suma kwadratowej stronniczości i wariancji)?
(θ−Eθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]−δ(X1:n))2]0<α
αα