Pytanie o kompromis wariancji odchylenia

15

Próbuję zrozumieć kompromis wariancji odchylenia, związek między odchyleniem estymatora a odchyleniem modelu oraz związek między wariancją estymatora a wariancją modelu.

Doszedłem do tych wniosków:

  • Mamy tendencję do przewyższania danych, gdy zaniedbujemy odchylenie estymatora, to znaczy, gdy staramy się jedynie zminimalizować odchylenie modelu zaniedbując wariancję modelu (innymi słowy, staramy się jedynie zminimalizować wariancję estymatora bez rozważania błąd estymatora)
  • Odwrotnie, mamy tendencję do niedopasowania danych, gdy zaniedbujemy wariancję estymatora, to znaczy, gdy staramy się jedynie zminimalizować wariancję modelu zaniedbując stronniczość modelu (innymi słowy, naszym celem jest jedynie minimalizacja stronniczości estymator bez uwzględnienia wariancji estymatora).

Czy moje wnioski są prawidłowe?

John M.
źródło
John, myślę, że spodoba ci się ten artykuł Tal Yarkoni i Jacoba Westfalla - zapewnia on intuicyjną interpretację kompromisu wariancji uprzedzeń: jakewestfall.org/publications/… .
Isabella Ghement,

Odpowiedzi:

22

Cóż, w pewnym sensie. Jak wspomniano, przypisujesz zamiar naukowcowi, aby zminimalizować stronniczość lub wariancję. W praktyce nie możesz wyraźnie obserwować stronniczości ani wariancji swojego modelu (gdybyś mógł, poznałbyś prawdziwy sygnał, w którym to przypadku nie potrzebowałbyś modelu). Zasadniczo poziom błędu modelu można obserwować tylko w określonym zestawie danych, a próbę oszacowania poziomu błędu poza próbą można przeprowadzić za pomocą różnych technik twórczych.

Teraz już nie wiem który, przynajmniej teoretycznie, wskaźnik ten błąd może być rozłożona na stronniczość i wariancji względem, ale nie można bezpośrednio obserwować tę równowagę w każdej sytuacji specyficzny betonowej. Chciałbym więc nieco powtórzyć twoje obserwacje jako:

  • Model jest niedostosowany do danych, gdy błąd systematyczny przyczynia się do większości błędów poza próbą.
  • Model jest nadmiernie dopasowany do danych, gdy warunek wariancji przyczynia się do większości błędów poza próbą.

Ogólnie rzecz biorąc, nie ma prawdziwego sposobu, aby się upewnić, ponieważ nigdy nie można naprawdę zaobserwować odchylenia modelu. Niemniej jednak istnieją różne wzorce zachowań, które wskazują na to, że znajdują się w takiej czy innej sytuacji:

  • Modele Overfit mają tendencję do znacznie gorszej wydajności dopasowania w zestawie danych testowych w porównaniu do zestawu danych treningowych.
  • Modele Underfit mają zwykle podobną skuteczność dopasowania w zestawie danych testowych i treningowych.

Oto wzorce, które przejawiają się w słynnych wykresach poziomów błędów według złożoności modelu, ten pochodzi z The Elements of Statistics Learning:

modelComplexity

Często wykresy te pokrywane są krzywą odchylenia i wariancji. Wziąłem ten z tej ładnej ekspozycji :

wprowadź opis zdjęcia tutaj

Ale bardzo ważne jest, aby zdać sobie sprawę, że tak naprawdę nigdy nie zobaczysz tych dodatkowych krzywych w żadnej realistycznej sytuacji.

Matthew Drury
źródło
4

Ilustrowanie błędu systematycznego - kompromis wariancji na przykładzie zabawki

Jak zauważa @Matthew Drury, w realistycznych sytuacjach nie widzisz ostatniego wykresu, ale poniższy przykład zabawki może zapewnić interpretację wizualną i intuicję tym, którzy uważają ją za pomocną.

Zestaw danych i założenia

Y

  • Y=sjan(πx-0,5)+ϵϵUnjafaorm(-0,5,0,5)
  • Y=fa(x)+ϵ

xYV.zar(Y)=V.zar(ϵ)=112

fa^(x)=β0+β1x+β1x2)+...+βpxp

Pasowanie do różnych modeli wielomianów

Intuicyjnie można by oczekiwać, że krzywa linii prostej będzie działać źle, ponieważ zestaw danych jest wyraźnie nieliniowy. Podobnie dopasowanie wielomianu bardzo wysokiego rzędu może być nadmierne. Ta intuicja znajduje odzwierciedlenie na poniższym wykresie, który pokazuje różne modele i odpowiadający im średni błąd kwadratu dla danych pociągu i testu.

wprowadź opis zdjęcia tutaj

Powyższy wykres działa dla pojedynczego podziału pociąg / test, ale skąd wiemy, czy się uogólnia?

Oszacowanie oczekiwanego pociągu i testu MSE

Mamy tutaj wiele opcji, ale jednym z podejść jest losowe podzielenie danych między pociągiem / testem - dopasowanie modelu do danego podziału i powtórzenie tego eksperymentu wiele razy. Wynikowy MSE można wykreślić, a średnia jest oszacowaniem oczekiwanego błędu.

wprowadź opis zdjęcia tutaj

Interesujące jest to, że test MSE zmienia się gwałtownie dla różnych podziałów danych pociąg / test. Ale przyjęcie średniej z wystarczająco dużej liczby eksperymentów daje nam większą pewność siebie.

Y

 Odchylenie - rozkład wariancji

Jak wyjaśniono tutaj, MSE można podzielić na 3 główne elementy:

mi[(Y-fa^)2)]=σϵ2)+bjazas2)[fa^]+V.zar[fa^]
mi[(Y-fa^)2)]=σϵ2)+[fa-mi[fa^]]2)+mi[fa^-mi[fa^]]2)

Gdzie w naszym przypadku zabawki:

  • fa
  • σϵ2)ϵ
  • mi[fa^]
  • fa^
  • mi[fa^-mi[fa^]]2)

Nadanie następującej relacji

wprowadź opis zdjęcia tutaj

Uwaga: powyższy wykres wykorzystuje dane treningowe do dopasowania do modelu, a następnie oblicza MSE w pociągu + test .

Xavier Bourret Sicotte
źródło