Matematyczna intuicja równania odchylenia wstępnego

12

I ostatnio zadawane pytanie mającą matematycznego interpretacji / intuicji za elementarnej równanie dotyczące próbki średniej i wariancji: , geometryczny lub inne.E[X2]=Var(X)+(E[X])2

Ale teraz ciekawi mnie powierzchownie podobne równanie kompromisu wariancji odchylenia.

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
(formuły z Wikipedii )

Dla mnie istnieje powierzchowne podobieństwo z równaniem kompromisu wariancji odchylenia dla regresji: trzy warunki z kwadratami i dwa dodające się do drugiego. Wygląda bardzo pitagorejsko. Czy istnieje podobny związek wektorowy obejmujący ortogonalność dla wszystkich tych elementów? A może ma zastosowanie inna powiązana interpretacja matematyczna?

Szukam matematycznej analogii z innymi przedmiotami matematycznymi, które mogłyby rzucić światło. Nie szukam analogii dokładności i precyzji, która jest tutaj dobrze omówiona. Ale gdyby istniały nietechniczne analogie, które ludzie mogą podać między kompromisem wariancji odchylenia a znacznie bardziej podstawową relacją średniej wariancji, byłoby to również świetne.

Mitch
źródło

Odpowiedzi:

12

Podobieństwo jest więcej niż powierzchowne.

„Kompromis wariancji odchylenia” można interpretować jako twierdzenie Pitagorasa zastosowane do dwóch prostopadłych wektorów euklidesowych: długość jednego jest odchyleniem standardowym, a długość drugiego jest odchyleniem. Długość przeciwprostokątnej jest pierwiastkowym błędem do kwadratu.

Podstawowy związek

Jako punkt wyjścia rozważ to obliczenie ujawniające, ważne dla dowolnej zmiennej losowej ze skończonym drugim momentem i dowolną liczbą rzeczywistą . Ponieważ drugi moment jest skończony, ma skończoną średnią dla której , skąda X μ = E ( X ) E ( X - μ ) = 0XaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

To pokazuje, jak średni kwadrat odchylenia między i wszelkich „bazowy” wartości zmienia się z : jest funkcją kwadratową z z minimum na , gdzie średnie odchylenie squared jest wariancja .a a a μ XXaaaμX

Związek z estymatorami i stronniczością

Każdy estymator jest zmienną losową, ponieważ (z definicji) jest (mierzalną) funkcją zmiennych losowych. Pozwalając mu odgrywać rolę w poprzednim i pozwalając estymatowi (rzecz, którą ma oceniać ) być , mamy X θ θθ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

Wróćmy do teraz, gdy widzieliśmy, że stwierdzenie o odchyleniu + wariancji dla estymatora jest dosłownie przypadkiem . Pytanie dotyczy „matematycznych analogii z obiektami matematycznymi”. Możemy zrobić więcej, pokazując, że losowe zmienne całkowite kwadratowe można oczywiście przekształcić w przestrzeń euklidesową.( 1 )(1)(1)

Tło matematyczne

W bardzo ogólnym znaczeniu zmienna losowa jest (mierzalną) funkcją o wartości rzeczywistej w przestrzeni prawdopodobieństwa . Zbiór takich funkcji, które są całkowalne do kwadratu, często zapisywany (przy zrozumieniu danej struktury prawdopodobieństwa), prawie jest przestrzenią Hilberta. Aby stworzyć jedną, musimy połączyć dowolne dwie zmienne losowe i które tak naprawdę nie różnią się pod względem integracji: to znaczy mówimy, że i są równoważne, ilekroćL 2 ( Ω ) X Y X Y(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

To proste, aby sprawdzić, że jest to prawda, relacja równoważności: najważniejsze, gdy jest równoznaczne z i jest równoważne , a następnie koniecznie będzie równa . Możemy zatem podzielić wszystkie losowe zmienne całkowalne kwadratowe na klasy równoważności. Klasy te tworzą zbiór . Co więcej, dziedziczy strukturę przestrzeni wektorowej zdefiniowaną przez punktowe dodawanie wartości i punktowe mnożenie skalarne. W tej przestrzeni wektorowej funkcjaY Y Z X Z L 2 ( Ω ) L 2 L 2XYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

jest normą , często pisaną . Norma ta sprawia, Do przestrzeni Hilberta. Pomyśl o przestrzeni Hilberta jako o „nieskończonej wymiarowej przestrzeni euklidesowej”. Każda skończona wymiarowa podprzestrzeń dziedziczy normę z a , z tą normą, jest przestrzenią euklidesową: możemy w niej wykonać geometrię euklidesową.L 2 ( Ω ) H V H H V||X||2L2(Ω)HVHHV

Wreszcie, potrzebujemy jednego faktu, który jest szczególny dla przestrzeni prawdopodobieństwa (zamiast ogólnych przestrzeni miar): ponieważ jest prawdopodobieństwem, jest ograniczone ( ), stąd stałe funkcje (dla dowolnego ustalona liczba rzeczywista ) to losowe zmienne całkowite kwadratowe o skończonych normach. 1 ω a aP1ωaa

Interpretacja geometryczna

Rozważ dowolną losową zmienną całkowitą do kwadratu, uważaną za reprezentatywną dla jej klasy równoważności w . Ma on średnią , który (jak można sprawdzić) zależy tylko od klasy równoważnikowy . Niech będzie klasą stałej zmiennej losowej.L 2 ( Ω ) μ = E ( X ) X 1 : ω 1XL2(Ω)μ=E(X)X1:ω1

1 V L 2 ( Ω ) 2 | | X | | 2 2 = E ( X 2 ) X | | zaX i generują podprzestrzeń euklidesową którego wymiar wynosi co najwyżej . W tej podprzestrzeni jest kwadratową długością a to kwadratowa długość stałej zmiennej losowej . Zasadnicze znaczenie ma to, że jest prostopadły do . (Jedną z definicji jest to, że jest to unikalny numer, dla którego tak jest. Można zapisać relację1VL2(Ω)2||X||22=E(X2)X ω a X - μ 1 1 μ ( 1 )||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

Jest to właśnie twierdzenie Pitagorasa, w zasadniczo tej samej formie znane 2500 lat temu. Obiekt jest przeciwprostokątną prawego trójkąta z nogami i . X - μ 1 ( a - μ ) 1

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

Jeśli chcesz analogii matematycznych, możesz użyć wszystkiego, co można wyrazić w postaci przeciwprostokątnej prawego trójkąta w przestrzeni euklidesowej. Przeciwprostokątna będzie reprezentować „błąd”, a nogi będą reprezentować odchylenie i odchylenia od średniej.

Whuber
źródło
Świetny. Tak więc rozumowanie jest prawie identyczne z moim poprzednim pytaniem dotyczącym . Więc istnieje analogia między nimi, prawda? Intuicyjnie wydaje się, że uprzedzenie jest analogiczne do znaczącego. Uogólnienie polega na tym, że średnia jest pierwszym momentem w odniesieniu do 0, ale odchylenie dotyczy prawdziwej wartości parametru. Czy to brzmi dobrze? Var=EX2(EX)2
Mitch
Tak - z zastrzeżeniem (co stanowi wgląd dodany przez interpretację geometryczną), że właściwym sposobem pomiaru tych rzeczy jest ich kwadrat.
whuber
Tak więc, mam podobne pytanie. W przypadku każdego uczenia maszynowego mam te dwie koncepcje „jeśli zwiększymy wielkość próby, wariancja asymptotycznie bezstronnego estymatora spadnie do zera” i „jeśli zwiększymy złożoność modelu, będziemy mieli niskie odchylenie i dużą wariancję” . Dlatego mogę powiedzieć, że większa moc obliczeniowa pozwala na większą złożoność, która zmniejszy stronniczość, ale zwiększy wariancję. Jednak przy asymptozie ten wzrost wariancji zostanie zrównoważony.
ARAT
@Mustafa Robisz pewne mocne założenia. Po pierwsze, próbka jest losowa i (przynajmniej w przybliżeniu) niezależna - często nie jest tak w aplikacjach ML. Wnioski dotyczące zwiększenia złożoności modelu nie są ogólnie prawdziwe, po części dlatego, że „zwiększenie złożoności” oznacza, że zmieniasz model, co podważa znaczenie tego, co szacuje Twój estymator, a także jego związek z estymacją . Niekoniecznie wynika z tego, że rosnąca złożoność modelu ma jakikolwiek ogólnie przewidywalny wpływ na odchylenie lub wariancję.
whuber
4

Jest to sposób na wizualne myślenie o dokładności i kompromisie w zakresie wariancji. Załóżmy, że patrzysz na cel i wykonujesz wiele strzałów, które są rozproszone blisko środka celu w taki sposób, że nie ma uprzedzeń. Wtedy dokładność zależy wyłącznie od wariancji, a gdy wariancja jest mała, strzelec jest celny.

Rozważmy teraz przypadek, w którym występuje duża precyzja, ale duże odchylenie. W takim przypadku strzały są rozproszone wokół punktu daleko od centrum. Coś popsuło punkt celowania, ale wokół tego punktu celowania każdy strzał jest blisko tego nowego punktu celowania. Strzelec jest precyzyjny, ale bardzo niedokładny z powodu stronniczości.

Istnieją inne sytuacje, w których strzały są dokładne ze względu na małe odchylenie i wysoką precyzję. To, czego chcemy, to brak uprzedzeń i mała wariancja lub niewielka wariancja z niewielkim uprzedzeniem. W niektórych problemach statystycznych nie możesz mieć obu. Tak więc MSE staje się miarą dokładności, której chcesz użyć, która przeciwdziała kompromisowi odchylenia i minimalizacja MSE powinna być celem.

Michael R. Chernick
źródło
Doskonały intuicyjny opis analogii odchylenia i precyzji dokładności. Szukam również interpretacji matematycznej, takiej jak twierdzenie Pitagorasa.
Mitch
1
Nie skupiłem się na tym, ponieważ został opisany w innym poście, który omawiał interpretację geometryczną. Znajdę link do ciebie.
Michael R. Chernick
@Mitch Wyszukiwanie „kompromisu odchylenie-bias” przyniosło 134 trafień na stronie CV. Nie znalazłem jeszcze twierdzenia Pitagorasa, ale ten jest naprawdę dobry i ma zdjęcie celów omawianych w tym poście. „Intuicyjne wyjaśnienie kompromisu wariancji uprzedzeń”.
Michael R. Chernick
Znalazłem tę, której szukałem od 5 stycznia 2017 r. „Intuicja (geometryczna lub inna) Var (X) = E [ ] - ( ). E [ X ] ) 2X2E[X])2
Michael R. Chernick
@Mitch Nie zdawałem sobie sprawy, że opublikowałeś pytanie, którego szukałem.
Michael R. Chernick