Raportowanie wyników prostej regresji liniowej: jakie informacje należy uwzględnić?

11

Właśnie wykonałem (bardzo) prostą regresję liniową w Genstat i chciałbym zawrzeć zwięzłe i znaczące streszczenie wyników w moim raporcie. Nie jestem pewien, jakie dokładnie lub jakie informacje powinienem zawierać.

Główne bity mojego wyjścia Genstat wyglądają tak:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

Zamierzałem zgłosić to po prostu jako:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

ale kolega zasugerował, że powinienem również dołączyć przynajmniej root mean squared error(co, moim zdaniem, w tym przypadku jest równe standardowemu błędowi obserwacji, tj. 99,9?).

Czy włączenie RMSE dostarcza dodatkowych użytecznych informacji, czy też dobroć dopasowania jest już odpowiednio wyjaśniona skorygowaną wartością R2?

Czy istnieją twarde i szybkie zasady dotyczące ilości zgłaszanych informacji, czy też są one dość subiektywne?

Dziękuję bardzo!

JamesS
źródło
1
„Czy istnieją twarde i szybkie zasady określania ilości informacji do zgłoszenia” - tak naprawdę zależy to od tego, co chcesz zrobić po regresji. Można być zadowolonym z samego współczynnika korelacji; na dodatek może być potrzebna wartość Durbin-Watson, a jeszcze inna może chcieć zobaczyć przekątną matrycy kapelusza ... to naprawdę zależy.
JM nie jest statystykiem
2
Niektóre organizacje mają reguły. Zobacz na przykład wytyczne APA .
whuber

Odpowiedzi:

6

Dla prostej regresji liniowej zawsze tworzyłbym wykres zmiennej x względem zmiennej y, z linią regresji nałożoną na wykres (zawsze wykreślaj twoje dane, kiedy tylko jest to możliwe!). Dzięki temu bardzo łatwo dowiesz się, jak dobrze pasuje twój model, i jest łatwy do odczytania dla 1 regresji zmiennej. Dodanie tego do tego, co już masz, prawdopodobnie byłoby wystarczające, chociaż możesz chcieć dołączyć pewne wykresy diagnostyczne (dźwignia, odległość kucharza, resztki itp.). Zależy to od tego, jak dobra jest ta fabuła xy, od twoich zamierzonych odbiorców i wszelkich protokołów, których oczekują twoi odbiorcy.

R2)

R2)±±2)R2)

prawdopodobieństwo prawdopodobieństwa
źródło
Dzięki @probabilityislogic. W swoim raporcie umieściłem spisek i brzmi to tak, a moje oryginalne zdanie powinno w tym przypadku wystarczyć. Myślę, że dołączenie wykresów diagnostycznych jest prawdopodobnie niepotrzebne dla tej grupy odbiorców, chociaż oczywiście sam je sprawdziłem i wyglądają rozsądnie. Dziękujemy również za wyjaśnienie R2 vs. RMSE - to bardzo pomocne.
JamesS
Co z wartościami t i df? Kiedy należy je uwzględnić? Czy sensowne jest uwzględnienie tylko jednego lub drugiego?
orzechowy o natty
1

Używam do zgłaszania współczynnika β plus 95% CI, wartości p i skorygowanego Rsquared. Dawny:

(β = 1,46, 95% CI [1,19; 1,8], p = 0,001 **, skorygowany R2 = 0,48)

Zgłaszając regresję wielokrotną lub regresję ze zmiennymi czynnikowymi, zgłaszam współczynnik, 95% CI, wartości p, a następnie oddzielnie statystyki F (stopnie swobody), skorygowane R2 i wartość p modelu.

Bakaburg
źródło