Powiedzmy, że mam model, który daje mi prognozowane wartości. Obliczam RMSE tych wartości. A potem odchylenie standardowe wartości rzeczywistych.
Czy ma sens porównywanie tych dwóch wartości (wariancji)? Myślę, że jeśli RMSE i odchylenie standardowe są podobne / takie same, błąd / wariancja mojego modelu jest taka sama, jak w rzeczywistości. Jeśli jednak porównanie tych wartości nie ma sensu, wniosek ten może być błędny. Jeśli moja myśl jest prawdziwa, to czy to znaczy, że model jest tak dobry, jak może być, ponieważ nie może przypisać przyczyny tego wariantu? Myślę, że ostatnia część jest prawdopodobnie nieprawidłowa lub przynajmniej potrzebuje więcej informacji, aby odpowiedzieć.
W przypadku braku lepszych informacji średnią wartość zmiennej docelowej można uznać za proste oszacowanie wartości zmiennej docelowej, czy to podczas próby modelowania istniejących danych, czy próby przewidzenia przyszłych wartości. To proste oszacowanie zmiennej docelowej (to znaczy przewidywanych wartości równych średniej zmiennej docelowej) zostanie wyłączone przez pewien błąd. Standardowym sposobem pomiaru średniego błędu jest odchylenie standardowe (SD) ,1n∑ni = 1( yja- y¯)2)-------------√ , ponieważ SD ma przyjemną właściwość dopasowania rozkładu w kształcie dzwonu (Gaussa), jeśli zmienna docelowa jest zwykle rozkładana. Zatem SD można uznać za błąd, który naturalnie występuje w oszacowaniach zmiennej docelowej. To sprawia, że jest to punkt odniesienia, który każdy model musi pokonać.
Istnieją różne sposoby pomiaru błędu oszacowania modelu ; wśród nich wspomniany przez ciebie Root Mean Squared Error (RMSE) ,1n∑ni = 1( yja- y^ja)2)--------------√ , jest jednym z najpopularniejszych. Jest on koncepcyjnie dość podobny do SD: zamiast mierzyć odległość rzeczywistą od średniej, używa zasadniczo tej samej formuły do pomiaru, jak daleko rzeczywista wartość jest od prognozy modelu dla tej wartości. Dobry model powinien mieć średnio lepsze prognozy niż naiwne oszacowanie średniej dla wszystkich prognoz. Zatem miara zmienności (RMSE) powinna zmniejszyć losowość lepiej niż SD.
Ten argument dotyczy innych miar błędu, nie tylko RMSE, ale RMSE jest szczególnie atrakcyjny do bezpośredniego porównania z SD, ponieważ ich formuły matematyczne są analogiczne.
źródło