Średni błąd kwadratu i rezydualna suma kwadratów

31

Patrząc na definicje Wikipedii:

Tak mi się wydaje

MSE=1NRSS=1N(fiyi)2

gdzie N jest numerem on próbek i fi jest nasza ocena yi .

Jednak żaden z artykułów Wikipedii nie wspomina o tym związku. Czemu? Czy coś brakuje?

Josh
źródło
6
Wiem, że wydaje się to nieprzydatne i trochę wrogie, ale nie wspominają o tym, ponieważ jest to oczywiste. Tutaj też chcesz być trochę ostrożny. Zwykle, gdy w rzeczywistej pracy empirycznej napotkasz MSE, nie jest to podzielone przez N, ale R S S podzielone przez N - K, gdzie K jest liczbą (łącznie z przecięciem) zmiennych po prawej stronie w niektórych modelach regresji . RSSNRSSNKK
Bill
10
@Bill: Cóż, właśnie taki związek zwykle prowadzi do linkowania artykułów na Wikipedii. Twój punkt widzenia na temat stopnia wolności pokazuje również, że nie jest to tak oczywiste i zdecydowanie coś wartego wspomnienia.
bluenote10,
2
@ Bill: Zgadzam się, jednak oczywistość jest bardzo subiektywna. Szara strefa statystyki / uczenia maszynowego jest zaśmiecona zapisem piekła, dlatego dobrze jest ją wyrazić.
rnoodle

Odpowiedzi:

30

Właściwie jest to wspomniane w sekcji Regresja średniego błędu kwadratu w Wikipedii:

W analizie regresji czasami stosuje się termin średni błąd kwadratu w odniesieniu do obiektywnej oceny wariancji błędu: rezydualna suma kwadratów podzielona przez liczbę stopni swobody.

Można również znaleźć tutaj niektóre informacje: Błędy i resztki w statystykach Mówi, że wyrażenie oznacza błąd kwadratu może mieć różne znaczenie w różnych przypadkach, co czasami jest trudne.

whenov
źródło
4

Pamiętaj jednak, że czasami suma kwadratów błędów (SSE) i suma kwadratów pozostałości (RSS) są czasami używane zamiennie, co dezorientuje czytelników. Na przykład sprawdź ten adres URL: https://365datascience.com/sum-squares/, aby uzyskać więcej informacji na temat regresji liniowej.

Ściśle mówiąc, ze statystycznego punktu widzenia, Błędy i Pozostałości to zupełnie inne pojęcia. Błędy odnoszą się głównie do różnicy między rzeczywistymi obserwowanymi wartościami próbki a przewidywanymi wartościami i są używane głównie w statystykach, takich jak Root Means Squared Errors (RMSE) i Mean Absollute Errors (MAE). Natomiast reszty odnoszą się wyłącznie do różnic między zmiennymi zależnymi i oszacowaniami z regresji liniowej.

Dr.CYY
źródło
0

Nie sądzę, że jest to poprawne, jeśli uważamy MSE za obszar RMSE. Na przykład masz szereg próbkowanych danych na temat prognoz i obserwacji, teraz próbujesz wykonać regresję liniową: Obserwacja (O) = a + b X Prognozowanie (P). W tym przypadku MSE jest sumą kwadratowej różnicy między O i P i podzieloną przez wielkość próbki N.

Ale jeśli chcesz zmierzyć skuteczność regresji liniowej, musisz obliczyć średnią kwadratową pozostałość (MSR). W tym samym przypadku najpierw oblicza się resztkową sumę kwadratów (RSS), która odpowiada sumie kwadratowych różnic między rzeczywistymi wartościami obserwacji i przewidywanymi obserwacjami pochodzącymi z regresji liniowej, a następnie następuje podział na RSS podzielony przez N-2 do uzyskać MSR.

Mówiąc prosto, w przykładzie MSE nie można oszacować za pomocą RSS / N, ponieważ komponent RSS nie jest już taki sam dla komponentu użytego do obliczenia MSE.

Dr.CYY
źródło
1
Nie rozumiem tej odpowiedzi.
Michael R. Chernick
Spójrz, na podstawie wspomnianego przykładu prognozy próbkowanej i obserwowanych wartości danych, regresja liniowa jest ustalana: Obserwacja (O) = a + b X Predykcja (P) (a, b są odpowiednio przechwyceniem i nachyleniem). W tym przypadku MSE = Σ (OP) ^ 2 / n, gdzie Σ (OP) ^ 2 to suma kwadratów Erros (SSE), a n to wielkość próbki. Jednak średnie kwadratowe pozostałości (MSR) = Σ (OO´) ^ 2 / n-2, gdzie Σ (OO´) ^ 2 jest równe sumie pozostałości kwadratów (RSS) i O` = a + b X P. MSR i RSS są używane głównie do testowania ogólnego znaczenia regresji liniowej. Zauważ też, SSE = Systematyczne błędy (SE) + RSS, gdzie SE = Σ (PO´) ^ 2
Dr.CYY