Jak interpretować błąd średniej kwadratowej (RMSE) vs. odchylenie standardowe?

21

Powiedzmy, że mam model, który daje mi prognozowane wartości. Obliczam RMSE tych wartości. A potem odchylenie standardowe wartości rzeczywistych.

Czy ma sens porównywanie tych dwóch wartości (wariancji)? Myślę, że jeśli RMSE i odchylenie standardowe są podobne / takie same, błąd / wariancja mojego modelu jest taka sama, jak w rzeczywistości. Jeśli jednak porównanie tych wartości nie ma sensu, wniosek ten może być błędny. Jeśli moja myśl jest prawdziwa, to czy to znaczy, że model jest tak dobry, jak może być, ponieważ nie może przypisać przyczyny tego wariantu? Myślę, że ostatnia część jest prawdopodobnie nieprawidłowa lub przynajmniej potrzebuje więcej informacji, aby odpowiedzieć.

standard-deviation standard-error rms jkim19
źródło

22

Załóżmy, że nasze reakcje są a nasze przewidywane wartości . $y_1, \dots, y_n$ $\hat y_1, \dots, \hat y_n$

Próbka wariancji ( dla uproszczenia używa zamiast ) wynosi $n$ $n-1$ podczas gdy MSE wynosi $\frac{1}{n} \sum_{i=1}^n (y_i - \bar y)^2$ . Zatem wariancja próbki podaje, jak bardzo odpowiedzi różnią się wokół średniej, podczas gdy MSE podaje, jak bardzo odpowiedzi różnią się wokół naszych prognoz. Jeśli pomyślimy, że ogólna średnia jest najprostszym predyktorem, jaki kiedykolwiek rozważaliśmy, to porównując MSE z próbką wariancji odpowiedzi, możemy zobaczyć, o ile więcej wariancji wyjaśniliśmy naszym modelem. To jest dokładnie to, co $\frac{1}{n} \sum_{i=1}^n (y_i - \hat y_i)^2$ $\bar y$ $R^2$ wartość robi w regresji liniowej.

Rozważ następujący obraz: Przykładową wariancją jest zmienność wokół linii poziomej. Jeśli rzutujemy wszystkie dane na oś możemy to zobaczyć. MSE to średni kwadratowy odległość do linii regresji, czyli zmienność wokół linii regresji (czyli ). Zatem zmienność mierzona przez wariancję próbki jest uśrednioną kwadratową odległością do linii poziomej, która, jak widzimy, jest znacznie większa niż średnia kwadratowa odległość do linii regresji. $y_i$ $Y$ $\hat y_i$

jld
źródło

5

\frac{\sum_{i} (y_{i} - {\hat{y}}_{i})^{2}}{n - p},

$\frac{\sum_i(y_i-\hat{y}_i)^2}{n-p},$ zależności od tego, ile ( p parametrów ) jest szacowanych dla prognozy, tj. utrata stopnia swobody (DF).

\frac{\sum_{i} (y_{i} - \bar{y})^{2}}{n - 1},

$\frac{\sum_i(y_i - \bar{y}) ^2}{n-1},$

\bar{y}

$\bar{y}$

y_{i}

$y_i$ .

$\hat{y}_i = \bar{y}$ $\bar{y}$

$\hat{y}_i$

\frac{\sum_{i} (y_{i} - {\hat{y}}_{i})^{2}}{n},

$\frac{\sum_i(y_i-\hat{y}_i)^2}{n},$

który jest najłatwiejszy do obliczenia.

Xiao-Feng Li
źródło

Nie mam przywileju komentowania odpowiedzi @Chaconne, ale wątpię, czy jego ostatnie zdanie zawiera literówkę, w której mówi: „Zatem zmienność mierzona przez wariancję próbki jest uśrednioną kwadratową odległością do linii poziomej, którą możemy patrz jest znacznie mniejsza niż średnia odległość do linii do kwadratu ". Ale na rysunku w jego odpowiedzi przewidywanie wartości y z linią jest dość dokładne, co oznacza, że MSE jest mały, co najmniej znacznie lepszy niż „przewidywanie” ze średnią wartością.

Xiao-Feng Li

3

W przypadku braku lepszych informacji średnią wartość zmiennej docelowej można uznać za proste oszacowanie wartości zmiennej docelowej, czy to podczas próby modelowania istniejących danych, czy próby przewidzenia przyszłych wartości. To proste oszacowanie zmiennej docelowej (to znaczy przewidywanych wartości równych średniej zmiennej docelowej) zostanie wyłączone przez pewien błąd. Standardowym sposobem pomiaru średniego błędu jest odchylenie standardowe (SD) , $\sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \bar y)^2}$ , ponieważ SD ma przyjemną właściwość dopasowania rozkładu w kształcie dzwonu (Gaussa), jeśli zmienna docelowa jest zwykle rozkładana. Zatem SD można uznać za błąd, który naturalnie występuje w oszacowaniach zmiennej docelowej. To sprawia, że jest to punkt odniesienia, który każdy model musi pokonać.

Istnieją różne sposoby pomiaru błędu oszacowania modelu ; wśród nich wspomniany przez ciebie Root Mean Squared Error (RMSE) , $\sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat y_i)^2}$ , jest jednym z najpopularniejszych. Jest on koncepcyjnie dość podobny do SD: zamiast mierzyć odległość rzeczywistą od średniej, używa zasadniczo tej samej formuły do pomiaru, jak daleko rzeczywista wartość jest od prognozy modelu dla tej wartości. Dobry model powinien mieć średnio lepsze prognozy niż naiwne oszacowanie średniej dla wszystkich prognoz. Zatem miara zmienności (RMSE) powinna zmniejszyć losowość lepiej niż SD.

Ten argument dotyczy innych miar błędu, nie tylko RMSE, ale RMSE jest szczególnie atrakcyjny do bezpośredniego porównania z SD, ponieważ ich formuły matematyczne są analogiczne.

Tripartio
źródło

To najlepsza odpowiedź, ponieważ wyjaśnia, w jaki sposób porównanie może być przydatne, a nie tylko opisywać różnice.

Hans

Jak interpretować błąd średniej kwadratowej (RMSE) vs. odchylenie standardowe?

Odpowiedzi: