Na str. 34 wstępu do nauki statystycznej :
Choć dowód matematyczny jest poza zakresem tej książki, jest możliwe, aby pokazać, że oczekiwany MSE testy, dla danej wartości , zawsze można rozłożyć na sumę trzech podstawowych ilości: w sprzeczności z f ( x 0 ) , kwadrat Odchylenie od f ( x 0 ) , a wariancja błędu warunki ε . To jest,
[...] Odchylenie odnosi się do ilości, w którym F uległaby zmianie, gdyby oszacowano je za pomocą różnych zbiorów danych.
Pytanie: Od wydaje się oznaczać wariancji funkcji , co to oznacza formalnie?
To znaczy, jestem zaznajomiony z koncepcją wariancji zmiennej losowej , ale co z wariancją zestawu funkcji? Czy można to traktować jako wariancję innej zmiennej losowej, której wartości przyjmują postać funkcji?
machine-learning
variance
Jerzy
źródło
źródło
Odpowiedzi:
Twoja korespondencja z @whuber jest poprawna.
Algorytm uczenia się może być postrzegany jako funkcja wyższego poziomu, odwzorowująca zestawy szkoleniowe na funkcje.A
gdzie jest przestrzenią możliwych zestawów treningowych. Może to być nieco owłosione koncepcyjnie, ale w zasadzie każdy zestaw treningowy daje wyniki, po zastosowaniu algorytmu modelowania treningu, w funkcji specyficznej f, której można użyć do prognozowania na podstawie punktu danych x .T f x
Jeśli spojrzymy na przestrzeń zbiorów treningowych jako przestrzeń prawdopodobieństwa, tak że istnieje pewien rozkład możliwych zbiorów danych treningowych, wówczas algorytm modelowania szkolenia staje się zmienną losową o wartości funkcji i możemy myśleć o pojęciach statystycznych. W szczególności, jeśli naprawimy określony punkt danych , otrzymamy losową zmienną o wartości liczbowejx0
To znaczy najpierw wytrenuj algorytm na , a następnie oceń uzyskany model na x 0 . To jest po prostu stara, ale raczej genialnie skonstruowana, losowa zmienna w przestrzeni prawdopodobieństwa, więc możemy mówić o jej wariancji. To jest różnica w twojej formule od ISL.T x0
źródło
Interpretacja wizualna przy użyciu powtarzanych kfolds
Aby dać wizualną / intuicyjną interpretację odpowiedzi @Matthew Drury, rozważ następujący przykład zabawki.
Poniższe wykresy przedstawiają model wielomianowy stopnia 2 i stopnia 6. Na pierwszy rzut oka wydaje się, że wyższy wielomian (czerwony) ma większą wariancję.
Twierdzenie, że czerwony wykres ma większą wariancję - eksperymentalnie
Widzę trzy główne scenariusze
In the case of this toy example, all three scenarios hold true over the range(0,1) which justifies the argument that the higher order polynomial fit (in red) has higher variance than the lower order polynomial (in green).
An open ended conclusion
What should be argued when the above three scenarios do not all hold. For example, what if the variance of the red predictions is greater on average, but not for all points.
Details of the labels
Consider pointx0=0.5
źródło