Próbuję zrozumieć kompromis wariancji odchylenia, związek między odchyleniem estymatora a odchyleniem modelu oraz związek między wariancją estymatora a wariancją modelu.
Doszedłem do tych wniosków:
- Mamy tendencję do przewyższania danych, gdy zaniedbujemy odchylenie estymatora, to znaczy, gdy staramy się jedynie zminimalizować odchylenie modelu zaniedbując wariancję modelu (innymi słowy, staramy się jedynie zminimalizować wariancję estymatora bez rozważania błąd estymatora)
- Odwrotnie, mamy tendencję do niedopasowania danych, gdy zaniedbujemy wariancję estymatora, to znaczy, gdy staramy się jedynie zminimalizować wariancję modelu zaniedbując stronniczość modelu (innymi słowy, naszym celem jest jedynie minimalizacja stronniczości estymator bez uwzględnienia wariancji estymatora).
Czy moje wnioski są prawidłowe?
Odpowiedzi:
Cóż, w pewnym sensie. Jak wspomniano, przypisujesz zamiar naukowcowi, aby zminimalizować stronniczość lub wariancję. W praktyce nie możesz wyraźnie obserwować stronniczości ani wariancji swojego modelu (gdybyś mógł, poznałbyś prawdziwy sygnał, w którym to przypadku nie potrzebowałbyś modelu). Zasadniczo poziom błędu modelu można obserwować tylko w określonym zestawie danych, a próbę oszacowania poziomu błędu poza próbą można przeprowadzić za pomocą różnych technik twórczych.
Teraz już nie wiem który, przynajmniej teoretycznie, wskaźnik ten błąd może być rozłożona na stronniczość i wariancji względem, ale nie można bezpośrednio obserwować tę równowagę w każdej sytuacji specyficzny betonowej. Chciałbym więc nieco powtórzyć twoje obserwacje jako:
Ogólnie rzecz biorąc, nie ma prawdziwego sposobu, aby się upewnić, ponieważ nigdy nie można naprawdę zaobserwować odchylenia modelu. Niemniej jednak istnieją różne wzorce zachowań, które wskazują na to, że znajdują się w takiej czy innej sytuacji:
Oto wzorce, które przejawiają się w słynnych wykresach poziomów błędów według złożoności modelu, ten pochodzi z The Elements of Statistics Learning:
Często wykresy te pokrywane są krzywą odchylenia i wariancji. Wziąłem ten z tej ładnej ekspozycji :
Ale bardzo ważne jest, aby zdać sobie sprawę, że tak naprawdę nigdy nie zobaczysz tych dodatkowych krzywych w żadnej realistycznej sytuacji.
źródło
Ilustrowanie błędu systematycznego - kompromis wariancji na przykładzie zabawki
Jak zauważa @Matthew Drury, w realistycznych sytuacjach nie widzisz ostatniego wykresu, ale poniższy przykład zabawki może zapewnić interpretację wizualną i intuicję tym, którzy uważają ją za pomocną.
Zestaw danych i założenia
Pasowanie do różnych modeli wielomianów
Intuicyjnie można by oczekiwać, że krzywa linii prostej będzie działać źle, ponieważ zestaw danych jest wyraźnie nieliniowy. Podobnie dopasowanie wielomianu bardzo wysokiego rzędu może być nadmierne. Ta intuicja znajduje odzwierciedlenie na poniższym wykresie, który pokazuje różne modele i odpowiadający im średni błąd kwadratu dla danych pociągu i testu.
Powyższy wykres działa dla pojedynczego podziału pociąg / test, ale skąd wiemy, czy się uogólnia?
Oszacowanie oczekiwanego pociągu i testu MSE
Mamy tutaj wiele opcji, ale jednym z podejść jest losowe podzielenie danych między pociągiem / testem - dopasowanie modelu do danego podziału i powtórzenie tego eksperymentu wiele razy. Wynikowy MSE można wykreślić, a średnia jest oszacowaniem oczekiwanego błędu.
Interesujące jest to, że test MSE zmienia się gwałtownie dla różnych podziałów danych pociąg / test. Ale przyjęcie średniej z wystarczająco dużej liczby eksperymentów daje nam większą pewność siebie.
Odchylenie - rozkład wariancji
Jak wyjaśniono tutaj, MSE można podzielić na 3 główne elementy:
Gdzie w naszym przypadku zabawki:
Nadanie następującej relacji
Uwaga: powyższy wykres wykorzystuje dane treningowe do dopasowania do modelu, a następnie oblicza MSE w pociągu + test .
źródło