Poniżej znajduje się nomogram utworzony z zestawu danych mtcars z pakietem rms dla formuły:
mpg ~ wt + am + qsec
Sam model wydaje się dobry z R2 wynoszącym 0,85 i P <0,00001
> mod
Linear Regression Model
ols(formula = mpg ~ wt + am + qsec, data = mtcars)
Model Likelihood Discrimination
Ratio Test Indexes
Obs 32 LR chi2 60.64 R2 0.850
sigma 2.4588 d.f. 3 R2 adj 0.834
d.f. 28 Pr(> chi2) 0.0000 g 6.456
Residuals
Min 1Q Median 3Q Max
-3.4811 -1.5555 -0.7257 1.4110 4.6610
Coef S.E. t Pr(>|t|)
Intercept 9.6178 6.9596 1.38 0.1779
wt -3.9165 0.7112 -5.51 <0.0001
am 2.9358 1.4109 2.08 0.0467
qsec 1.2259 0.2887 4.25 0.0002
Nie jestem jasne, co to są te „punkty”, „suma punktów” i „liniowy predyktor”. Który z nich reprezentuje mpg, zmienną wynikową? Będę wdzięczny za wszelkie wyjaśnienia.
Edycja: biorąc pod uwagę doskonałe sugestie @Glen_b dotyczące łatwego czytania punktów itp., Alternatywnym nomogramem może być:
Ponieważ zmienna wyniku lub odpowiedzi jest dostępna, można jej użyć zamiast terminu „Predyktor liniowy”. Stało się również oczywiste, w jaki sposób należy odczytać nomogram.
regression
multiple-regression
data-visualization
predictive-models
regression-strategies
rnso
źródło
źródło
Odpowiedzi:
Ponieważ twój model jest liniowy, a oczekiwany mpg jest równy predyktorowi liniowemu, możesz odczytać mpg bezpośrednio z liniowej skali predyktora.
Dla każdej zmiennej można znaleźć jej wartość na odpowiedniej skali. Wyobraźmy sobie na przykład, że chcieliśmy znaleźć przewidywane mpg dla samochodu z
wt=4, am=1, qsec=18
:co daje przewidywane mpg około 18,94. Podstawienie do równania daje 18,95, więc to całkiem blisko. (W praktyce prawdopodobnie pracowałbyś tylko do najbliższego całego punktu - a więc uzyskasz dokładność około 2 cyfr - „19 mpg” - zamiast, zamiast 3-4 cyfr, jak tutaj.)
Jedną z głównych korzyści takiego diagramu jest dla mnie to, że natychmiast widzisz względny wpływ zmian w różnych zmiennych predykcyjnych (IV) na odpowiedź (DV). Nawet jeśli nie potrzebujesz diagramu do żadnych obliczeń, może on mieć wielką wartość, jeśli chodzi o proste wyświetlanie względnych efektów zmiennych.
Dalsze pytanie z komentarzy:
W przypadkach, w których jest nieliniowy w niektórych predyktorach, potrzebne są pewne drobne - i być może oczywiste - modyfikacje. Wyobraź sobie, że mamyr = b 0 + b x 1 + f ( x 2 )mi( Y) y^= b0+ b x1+ f( x2))
gdzie:
(a) jest monotoniczny; lubf
(b) nie jest monotonicznyf
W obu przypadkach skala dla działałaby dokładnie tak jak powyżej, ale w przypadku:x1
(a) skala dla nie będzie liniowa; np. jeśli jest monotoniczny, ale (z grubsza) kwadratowy, możesz mieć coś takiego: fx2 f
(b) niemonotoniczna skala dla „pęknie” w punkcie zwrotnym i przewróci się. na przykładx2
- tutaj funkcja ma minimum okołox = 2,23f(x) x=2.23
Możliwe jest, że takie funkcje mają kilka punktów zwrotnych, w których skale łamałyby się i przewracały wielokrotnie - ale linia osi ma tylko dwa boki.
W przypadku nomogramów punktowych nie stanowi to żadnej trudności, ponieważ można przesunąć dodatkowe odcinki skali w górę lub w dół (lub bardziej ogólnie, prostopadle do kierunku osi) trochę, dopóki nie zachodzi nakładanie się.
(Więcej niż jeden punkt zwrotny może być problemem dla nomogramów typu wyrównania; jednym rozwiązaniem pokazanym w książce Harrella jest nieznaczne przesunięcie wszystkich skal od linii odniesienia, na której faktycznie przyjmowana jest pozycja wartości.)
W przypadku GLM z nieliniową funkcją połączenia skale działają jak wyżej, ale skala predyktora liniowego będzie oznaczona nieliniową skalą dla , coś jak (a) powyżej.Y
Przykłady wszystkich tych sytuacji można znaleźć w Strategiach modelowania regresji Harrella .
Tylko kilka notatek dodatkowych
Wolałbym widzieć dwie skale punktowe, na górze i na dole odpowiedniej sekcji; w przeciwnym razie trudno jest dokładnie „wyrównać”, ponieważ musisz zgadnąć, co to jest „pionowe”. Coś takiego:
Jednak, jak zauważam w komentarzach, dla ostatniej części diagramu (suma punktów i predyktor liniowy) być może lepszą alternatywą dla drugiej skali punktowej byłoby po prostu posiadanie pary skal wzajemnych (suma punktów na jednym z boku, predyktor liniowy z drugiej), jak poniżej:
po czym unikamy potrzeby poznania „pionu”.
Mając tylko dwa ciągłe predyktory i jeden czynnik binarny, możemy dość łatwo skonstruować bardziej tradycyjny nomogram wyrównania :
W takim przypadku po prostu znajdź wartości
wt
iqsec
na ich skalach i połącz je linią; gdzie przecinająmpg
oś, odczytujemy wartość (podczas gdyam
zmienna określa, którą stronęmpg
osi odczytujesz). W takim prostym przypadku tego rodzaju nomogramy są szybsze i prostsze w użyciu, ale mogą być trudniejsze do uogólnienia na wiele predyktorów, w których mogą stać się niewygodne. Nominogram w stylu punktów w twoim pytaniu (zaimplementowany w Strategiach Modelowania Regresji oraz wrms
pakiecie w R) może bezproblemowo dodawać więcej zmiennych. Może to być sporą zaletą w przypadku interakcji.źródło
nomogram
funkcji,plot
abyPoints
domyślnie dodać dodatkową skalę. Świetna sugestia !!