Dziwię się, że nie zadawano tego wcześniej, ale nie mogę znaleźć pytania na stats.stackexchange.
Oto wzór na obliczenie wariancji normalnie rozłożonej próbki:
Oto wzór na obliczenie średniego błędu kwadratu obserwacji w prostej regresji liniowej:
Jaka jest różnica między tymi dwiema formułami? Jedyną różnicą, jaką widzę, jest to, że MSE używa . Więc jeśli to jedyna różnica, dlaczego nie nazwać ich zarówno wariancją, ale o różnych stopniach swobody?
Odpowiedzi:
Średni błąd kwadratowy, jak napisałeś dla OLS, ukrywa coś:
Zauważ, że licznik sumuje się na funkcji zarównoy jak i x , więc tracisz stopień swobody dla każdej zmiennej, stąd n - 2 . We wzorze wariancji próbki licznik jest funkcją jednej zmiennej, więc tracisz tylko jeden stopień swobody w mianowniku.
Jednak jesteś na dobrej drodze, aby zauważyć, że są to koncepcyjnie podobne ilości. Wariancja próbki mierzy rozproszenie danych wokół średniej próbki (w jednostkach kwadratowych), podczas gdy MSE mierzy rozproszenie pionowe danych wokół linii regresji próbki (w kwadratowych jednostkach pionowych).
źródło
źródło