Podobieństwo jest więcej niż powierzchowne.
„Kompromis wariancji odchylenia” można interpretować jako twierdzenie Pitagorasa zastosowane do dwóch prostopadłych wektorów euklidesowych: długość jednego jest odchyleniem standardowym, a długość drugiego jest odchyleniem. Długość przeciwprostokątnej jest pierwiastkowym błędem do kwadratu.
Podstawowy związek
Jako punkt wyjścia rozważ to obliczenie ujawniające, ważne dla dowolnej zmiennej losowej ze skończonym drugim momentem i dowolną liczbą rzeczywistą . Ponieważ drugi moment jest skończony, ma skończoną średnią dla której , skąda X μ = E ( X ) E ( X - μ ) = 0XzaXμ = E ( X)E (X- μ ) = 0
E ((X−a)2)=E((X−μ+μ−a)2)=E((X−μ)2)+2E(X−μ)(μ−a)+(μ−a)2=Var(X)+(μ−a)2.(1)
To pokazuje, jak średni kwadrat odchylenia między i wszelkich „bazowy” wartości zmienia się z : jest funkcją kwadratową z z minimum na , gdzie średnie odchylenie squared jest wariancja .a a a μ XXaaaμX
Związek z estymatorami i stronniczością
Każdy estymator jest zmienną losową, ponieważ (z definicji) jest (mierzalną) funkcją zmiennych losowych. Pozwalając mu odgrywać rolę w poprzednim i pozwalając estymatowi (rzecz, którą ma oceniać ) być , mamy X θ θθ^Xθ^θ
MSE(θ^) =E((θ^−θ)2)=Var(θ^) + ( E ( θ^) - θ )2).
Wróćmy do teraz, gdy widzieliśmy, że stwierdzenie o odchyleniu + wariancji dla estymatora jest dosłownie przypadkiem . Pytanie dotyczy „matematycznych analogii z obiektami matematycznymi”. Możemy zrobić więcej, pokazując, że losowe zmienne całkowite kwadratowe można oczywiście przekształcić w przestrzeń euklidesową.( 1 )( 1 )( 1 )
Tło matematyczne
W bardzo ogólnym znaczeniu zmienna losowa jest (mierzalną) funkcją o wartości rzeczywistej w przestrzeni prawdopodobieństwa . Zbiór takich funkcji, które są całkowalne do kwadratu, często zapisywany (przy zrozumieniu danej struktury prawdopodobieństwa), prawie jest przestrzenią Hilberta. Aby stworzyć jedną, musimy połączyć dowolne dwie zmienne losowe i które tak naprawdę nie różnią się pod względem integracji: to znaczy mówimy, że i są równoważne, ilekroćL 2 ( Ω ) X Y X Y( Ω , S , P )L2(Ω)XYXY
E(|X−Y|2)=∫Ω|X(ω)−Y(ω)|2dP(ω)=0.
To proste, aby sprawdzić, że jest to prawda, relacja równoważności: najważniejsze, gdy jest równoznaczne z i jest równoważne , a następnie koniecznie będzie równa . Możemy zatem podzielić wszystkie losowe zmienne całkowalne kwadratowe na klasy równoważności. Klasy te tworzą zbiór . Co więcej, dziedziczy strukturę przestrzeni wektorowej zdefiniowaną przez punktowe dodawanie wartości i punktowe mnożenie skalarne. W tej przestrzeni wektorowej funkcjaY Y Z X Z L 2 ( Ω ) L 2 L 2XYYZXZL2(Ω)L2L2
X→(∫Ω|X(ω)|2dP(ω))1/2=E(|X|2)−−−−−−√
jest normą , często pisaną . Norma ta sprawia, Do przestrzeni Hilberta. Pomyśl o przestrzeni Hilberta jako o „nieskończonej wymiarowej przestrzeni euklidesowej”. Każda skończona wymiarowa podprzestrzeń dziedziczy normę z a , z tą normą, jest przestrzenią euklidesową: możemy w niej wykonać geometrię euklidesową.L 2 ( Ω ) H V ⊂ H H V||X||2L2(Ω)HV⊂HHV
Wreszcie, potrzebujemy jednego faktu, który jest szczególny dla przestrzeni prawdopodobieństwa (zamiast ogólnych przestrzeni miar): ponieważ jest prawdopodobieństwem, jest ograniczone ( ), stąd stałe funkcje (dla dowolnego ustalona liczba rzeczywista ) to losowe zmienne całkowite kwadratowe o skończonych normach. 1 ω → a aP1ω→aa
Interpretacja geometryczna
Rozważ dowolną losową zmienną całkowitą do kwadratu, uważaną za reprezentatywną dla jej klasy równoważności w . Ma on średnią , który (jak można sprawdzić) zależy tylko od klasy równoważnikowy . Niech będzie klasą stałej zmiennej losowej.L 2 ( Ω ) μ = E ( X ) X 1 : ω → 1XL2(Ω)μ=E(X)X1:ω→1
1 V ⊂ L 2 ( Ω ) 2 | | X | | 2 2 = E ( X 2 ) X | | zaX i generują podprzestrzeń euklidesową którego wymiar wynosi co najwyżej . W tej podprzestrzeni jest kwadratową długością a to kwadratowa długość stałej zmiennej losowej . Zasadnicze znaczenie ma to, że jest prostopadły do . (Jedną z definicji jest to, że jest to unikalny numer, dla którego tak jest. Można zapisać relację1V⊂L2(Ω)2||X||22=E(X2)X ω → a X - μ 1 1 μ ( 1 )||a1||22=a2ω→aX−μ11μ(1)
||X−a1||22=||X−μ1||22+||(a−μ)1||22.
Jest to właśnie twierdzenie Pitagorasa, w zasadniczo tej samej formie znane 2500 lat temu. Obiekt jest przeciwprostokątną prawego trójkąta z nogami i . X - μ 1 ( a - μ ) 1
X−a1=(X−μ1)−(a−μ)1
X−μ1(a−μ)1
Jeśli chcesz analogii matematycznych, możesz użyć wszystkiego, co można wyrazić w postaci przeciwprostokątnej prawego trójkąta w przestrzeni euklidesowej. Przeciwprostokątna będzie reprezentować „błąd”, a nogi będą reprezentować odchylenie i odchylenia od średniej.
Jest to sposób na wizualne myślenie o dokładności i kompromisie w zakresie wariancji. Załóżmy, że patrzysz na cel i wykonujesz wiele strzałów, które są rozproszone blisko środka celu w taki sposób, że nie ma uprzedzeń. Wtedy dokładność zależy wyłącznie od wariancji, a gdy wariancja jest mała, strzelec jest celny.
Rozważmy teraz przypadek, w którym występuje duża precyzja, ale duże odchylenie. W takim przypadku strzały są rozproszone wokół punktu daleko od centrum. Coś popsuło punkt celowania, ale wokół tego punktu celowania każdy strzał jest blisko tego nowego punktu celowania. Strzelec jest precyzyjny, ale bardzo niedokładny z powodu stronniczości.
Istnieją inne sytuacje, w których strzały są dokładne ze względu na małe odchylenie i wysoką precyzję. To, czego chcemy, to brak uprzedzeń i mała wariancja lub niewielka wariancja z niewielkim uprzedzeniem. W niektórych problemach statystycznych nie możesz mieć obu. Tak więc MSE staje się miarą dokładności, której chcesz użyć, która przeciwdziała kompromisowi odchylenia i minimalizacja MSE powinna być celem.
źródło