Jaka jest różnica między „współczynnikiem determinacji” a „średnim kwadratowym błędem”?

32

W przypadku problemu z regresją widziałem, jak ludzie używają „współczynnika determinacji” (inaczej R do kwadratu), aby dokonać wyboru modelu, np. Znajdując odpowiedni współczynnik kary dla uregulowania.

Jednak często stosuje się „średni błąd kwadratowy” lub „średni błąd kwadratowy” jako miarę dokładności regresji.

Więc jaka jest główna różnica między tymi dwoma? Czy można je stosować zamiennie do zadań „regularyzacji” i „regresji”? A jakie są główne zastosowania każdego z nich w praktyce, na przykład w uczeniu maszynowym, w eksploracji danych?

dolaameng
źródło

Odpowiedzi:

40

R2=1SSESST , gdzie jest sumą błędu do kwadratu (reszty lub odchylenia od linii regresji), a jest sumą do kwadratu odchyleń od średniej zależnej .SSESSTY

MSE=SSEnm , gdzie jest rozmiarem próbki, a jest liczbą parametrów w modelu (włączając przechwytywanie, jeśli istnieje).nm

R2 jest znormalizowaną miarą stopnia przewidywalności lub dopasowania w próbce. to oszacowanie wariancji reszt lub niedopasowania w populacji. Dwie miary są wyraźnie powiązane, jak widać w najczęściej stosowanym wzorze na skorygowane (oszacowanie dla populacji):MSE R2R2

Radj2=1(1R2)n1nm=1SSE/(nm)SST/(n1)=1MSEσy2 .

ttnphns
źródło
2
Myślałem, że MSE jest średnią błędów, co oznacza, że ​​MSE = SSE / n, w jakich przypadkach używamy MSE = SSE / (nm)? Proszę wytłumacz. Dzięki
Sincole Brans,
@SincoleBrans Proszę zobaczyć en.wikipedia.org/wiki/Mean_squared_error , sekcja „Regresja”.
ttnphns
Jestem nieco zdezorientowany. Wyniki w martin-thoma.com/regression pokazują, że model może być dobry (w porównaniu do niektórych innych modeli) z R ^ 2, ale jednocześnie zły z MSE. Czy możesz to wyjaśnić?
Martin Thoma,