Rozkład wariancji odchylenia

13

W sekcji 3.2 Rozpoznawania wzorców i uczenia maszynowego Bishopa omawia dekompozycję wariancji odchylenia, stwierdzając, że dla funkcji straty kwadratowej oczekiwana strata może zostać rozłożona na wartość kwadratową błędu (która opisuje, jak daleko średnie prognozy są od prawdziwej model), termin wariancji (który opisuje rozkład prognoz wokół średniej) i termin szumu (który daje wewnętrzny szum danych).

  1. Czy dekompozycję wariancji odchylenia wstępnego można przeprowadzić z funkcjami strat innymi niż strata kwadratowa?
  2. Czy dla danego zestawu danych modelu istnieje więcej niż jeden model, którego oczekiwana strata jest minimalna we wszystkich modelach, a jeśli tak, to czy to oznacza, że ​​mogą istnieć różne kombinacje odchylenia i wariancji, które przyniosą taką samą minimalną oczekiwaną stratę?
  3. Jeśli model obejmuje regularyzację, to czy istnieje matematyczny związek między stronniczością, wariancją i współczynnikiem regularyzacji ?λ
  4. Jak obliczyć błąd systematyczny, jeśli nie znasz prawdziwego modelu?
  5. Czy istnieją sytuacje, w których bardziej sensowne jest zminimalizowanie stronniczości lub wariancji niż oczekiwanej straty (suma kwadratowej stronniczości i wariancji)?
Vivek Subramanian
źródło

Odpowiedzi:

3

... oczekiwana strata [błąd kwadratu] może zostać rozłożona na kwadratowy błąd polaryzacji (który opisuje, jak daleko średnie prognozy są od prawdziwego modelu), wariacja wariancji (która opisuje rozkład prognoz wokół średniej), i termin szum (który daje wewnętrzny szum danych).

Patrząc na rozkład kwadratu utraty strat Widzę tylko dwa terminy: jeden dla odchylenia i drugi dla wariancji estymatora lub predyktora, δ ( X 1 : n ) . W oczekiwanej stracie nie ma dodatkowego terminu hałasu. Tak jak powinno być, ponieważ zmienność jest zmiennością δ ( X 1 : n ) , a nie samej próbki.

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ(X1:n)δ(X1:n)
  1. Czy dekompozycję wariancji odchylenia wstępnego można przeprowadzić z funkcjami strat innymi niż strata kwadratowa?

Moja interpretacja rozkładu odchylenia kwadratowego + wariancji [i sposobu, w jaki go uczę] jest taka, że ​​jest to statystyczny odpowiednik twierdzenia Pythagore'a, a mianowicie, że kwadratowa odległość między estymatorem a punktem w określonym zbiorze jest sumą kwadratowej odległości między estymatorem a zbiorem plus kwadratowa odległość między rzutem prostopadłym na zbiorze a punktem w zbiorze. Każda strata oparta na odległości z n Dla danego zestawu danych modelu istnieje więcej niż jeden model, którego spodziewana strata jest minimalna dla wszystkich modeli, a jeśli tak, to znaczy, że mogą istnieć różne kombinacje odchyleń i wariancji, które dają taka sama minimalna oczekiwana utrata projekcji ortogonalnej, tj. iloczyn wewnętrzny, tj. zasadniczo przestrzenie Hilberta, spełnia ten rozkład.

  1. Czy dla danego zestawu danych modelu istnieje więcej niż jeden model, którego oczekiwana strata jest minimalna we wszystkich modelach, a jeśli tak, to czy to oznacza, że ​​mogą istnieć różne kombinacje odchylenia i wariancji, które przyniosą taką samą minimalną oczekiwaną stratę?

minθEθ[(θδ(X1:n))2]
  1. Jak obliczyć błąd systematyczny, jeśli nie znasz prawdziwego modelu?

W ogólnym ujęciu odchylenie to odległość między modelem prawdziwym a najbliższym modelem w ramach przyjętej rodziny rozkładów. Jeśli prawdziwy model nie jest znany, błąd można ustalić za pomocą bootstrap.

  1. Czy istnieją sytuacje, w których bardziej sensowne jest zminimalizowanie stronniczości lub wariancji niż oczekiwanej straty (suma kwadratowej stronniczości i wariancji)?

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα
Xi'an
źródło
fY=f(X)+ϵϵσϵf(X)E[f^(X)]E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)
f^ϵ
Hmm, oczywiście masz rację. Ale myślę, że ten problem jest artefaktem mojej niechlujnej pochodnej. Sprawdź s.223 ESLII
Miguel,
ϵf^