Wiem, że prawdopodobnie zostało to omówione gdzie indziej, ale nie udało mi się znaleźć jednoznacznej odpowiedzi. Próbuję użyć wzoru aby obliczyć poza próbą modelu regresji liniowej, gdzie jest sumą kwadratów reszt, a jest sumą kwadratów. W przypadku zestawu treningowego jasne jest, że
Co z zestawem testowym? Czy powinienem nadal używać dla próbki poza próbą , czy zamiast tego używać ?
Odkryłem, że jeśli użyję , wynikowe może czasami być ujemne. Jest to zgodne z opisem funkcji sklearn r2_score()
, w której użyli (który jest również wykorzystywany przez funkcję ich model_liniowy score()
do testowania próbek). Twierdzą, że „stały model, który zawsze przewiduje oczekiwaną wartość y, bez względu na cechy wejściowe, uzyskałby wynik R ^ 2 wynoszący 0,0”.
Jednak w innych miejscach ludzie używali jak tutaj i tutaj (druga odpowiedź dmi3kno). Zastanawiałem się, co ma więcej sensu? Wszelkie uwagi będą mile widziane!
źródło