Wyjaśnienia dotyczące czytania nomogramu

10

Poniżej znajduje się nomogram utworzony z zestawu danych mtcars z pakietem rms dla formuły:

mpg ~ wt + am + qsec

wprowadź opis zdjęcia tutaj

Sam model wydaje się dobry z R2 wynoszącym 0,85 i P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Nie jestem jasne, co to są te „punkty”, „suma punktów” i „liniowy predyktor”. Który z nich reprezentuje mpg, zmienną wynikową? Będę wdzięczny za wszelkie wyjaśnienia.

Edycja: biorąc pod uwagę doskonałe sugestie @Glen_b dotyczące łatwego czytania punktów itp., Alternatywnym nomogramem może być:

wprowadź opis zdjęcia tutaj

Ponieważ zmienna wyniku lub odpowiedzi jest dostępna, można jej użyć zamiast terminu „Predyktor liniowy”. Stało się również oczywiste, w jaki sposób należy odczytać nomogram.

rnso
źródło
ładny diagram w edycji
Glen_b -Reinstate Monica

Odpowiedzi:

11

Ponieważ twój model jest liniowy, a oczekiwany mpg jest równy predyktorowi liniowemu, możesz odczytać mpg bezpośrednio z liniowej skali predyktora.

Dla każdej zmiennej można znaleźć jej wartość na odpowiedniej skali. Wyobraźmy sobie na przykład, że chcieliśmy znaleźć przewidywane mpg dla samochodu z wt=4, am=1, qsec=18:

wprowadź opis zdjęcia tutaj

co daje przewidywane mpg około 18,94. Podstawienie do równania daje 18,95, więc to całkiem blisko. (W praktyce prawdopodobnie pracowałbyś tylko do najbliższego całego punktu - a więc uzyskasz dokładność około 2 cyfr - „19 mpg” - zamiast, zamiast 3-4 cyfr, jak tutaj.)

Jedną z głównych korzyści takiego diagramu jest dla mnie to, że natychmiast widzisz względny wpływ zmian w różnych zmiennych predykcyjnych (IV) na odpowiedź (DV). Nawet jeśli nie potrzebujesz diagramu do żadnych obliczeń, może on mieć wielką wartość, jeśli chodzi o proste wyświetlanie względnych efektów zmiennych.


Dalsze pytanie z komentarzy:

Czy działa to tak samo w przypadku regresji nieliniowej lub wielomianowej?

W przypadkach, w których jest nieliniowy w niektórych predyktorach, potrzebne są pewne drobne - i być może oczywiste - modyfikacje. Wyobraź sobie, że mamyr = b 0 + b x 1 + f ( x 2 )E(Y)y^=b0+bx1+f(x2)

gdzie:

(a) jest monotoniczny; lubf

(b) nie jest monotonicznyf

W obu przypadkach skala dla działałaby dokładnie tak jak powyżej, ale w przypadku:x1

(a) skala dla nie będzie liniowa; np. jeśli jest monotoniczny, ale (z grubsza) kwadratowy, możesz mieć coś takiego: fx2f

wprowadź opis zdjęcia tutaj

(b) niemonotoniczna skala dla „pęknie” w punkcie zwrotnym i przewróci się. na przykładx2

wprowadź opis zdjęcia tutaj

- tutaj funkcja ma minimum okołox = 2,23f(x)x=2.23

Możliwe jest, że takie funkcje mają kilka punktów zwrotnych, w których skale łamałyby się i przewracały wielokrotnie - ale linia osi ma tylko dwa boki.

W przypadku nomogramów punktowych nie stanowi to żadnej trudności, ponieważ można przesunąć dodatkowe odcinki skali w górę lub w dół (lub bardziej ogólnie, prostopadle do kierunku osi) trochę, dopóki nie zachodzi nakładanie się.

(Więcej niż jeden punkt zwrotny może być problemem dla nomogramów typu wyrównania; jednym rozwiązaniem pokazanym w książce Harrella jest nieznaczne przesunięcie wszystkich skal od linii odniesienia, na której faktycznie przyjmowana jest pozycja wartości.)


W przypadku GLM z nieliniową funkcją połączenia skale działają jak wyżej, ale skala predyktora liniowego będzie oznaczona nieliniową skalą dla , coś jak (a) powyżej.Y

Przykłady wszystkich tych sytuacji można znaleźć w Strategiach modelowania regresji Harrella .



Tylko kilka notatek dodatkowych

  1. Wolałbym widzieć dwie skale punktowe, na górze i na dole odpowiedniej sekcji; w przeciwnym razie trudno jest dokładnie „wyrównać”, ponieważ musisz zgadnąć, co to jest „pionowe”. Coś takiego:

    wprowadź opis zdjęcia tutaj

    Jednak, jak zauważam w komentarzach, dla ostatniej części diagramu (suma punktów i predyktor liniowy) być może lepszą alternatywą dla drugiej skali punktowej byłoby po prostu posiadanie pary skal wzajemnych (suma punktów na jednym z boku, predyktor liniowy z drugiej), jak poniżej:

    wprowadź opis zdjęcia tutaj

    po czym unikamy potrzeby poznania „pionu”.

  2. Mając tylko dwa ciągłe predyktory i jeden czynnik binarny, możemy dość łatwo skonstruować bardziej tradycyjny nomogram wyrównania :

    wprowadź opis zdjęcia tutaj

    W takim przypadku po prostu znajdź wartości wti qsecna ich skalach i połącz je linią; gdzie przecinają mpgoś, odczytujemy wartość (podczas gdy amzmienna określa, którą stronę mpgosi odczytujesz). W takim prostym przypadku tego rodzaju nomogramy są szybsze i prostsze w użyciu, ale mogą być trudniejsze do uogólnienia na wiele predyktorów, w których mogą stać się niewygodne. Nominogram w stylu punktów w twoim pytaniu (zaimplementowany w Strategiach Modelowania Regresji oraz w rmspakiecie w R) może bezproblemowo dodawać więcej zmiennych. Może to być sporą zaletą w przypadku interakcji.

Glen_b - Przywróć Monikę
źródło
Dzięki za jasne, ilustrowane wyjaśnienie. Czy działa to tak samo w przypadku regresji nieliniowej lub wielomianowej?
rnso
1
Zredagowałem swoją odpowiedź, aby odpowiedzieć na to dodatkowe pytanie.
Glen_b
2
To niesamowity post Glen. Myślę, że mam zamiar zmodyfikować metodę nomogramfunkcji, plotaby Pointsdomyślnie dodać dodatkową skalę. Świetna sugestia !!
Frank Harrell,
1
@FrankHarrell Nie, ponieważ nie czytasz żadnego związku między punktami a sumą punktów - nie muszą nawet znajdować się na tej samej stronie. Problemem jest znalezienie „pionu”, dzięki czemu można dokładnie odczytać z punktów całkowitych do predyktora liniowego. Jeśli te dwie skale są bardzo blisko lub dotykają się, a nie dzielą od siebie dwa cale, nie stanowi to problemu. Gdy są oddalone od siebie o kilka cali, kilka stopni błędu w znalezieniu pionu może oznaczać dość duży błąd w wyniku. Nadal potrzebujesz dwóch skal punktowych w pierwszej sekcji, ponieważ możesz mieć wiele predyktorów i nie wszystkie mogą przylegać do skali punktowej.
Glen_b
1
@FrankHarrell Osobiście uważam, że siatka zaśmieca wyświetlacz i ma tendencję do zaciemniania jego wartości; Kiedy mogę, unikam siatek. Nie pozwalają też na taki sam stopień precyzji w ustawianiu w pionie, chyba że siatka jest tak drobna jak skala (co moim zdaniem byłoby okropne wizualnie). Bez opcji dla jednego, skończyłbym na edycji w drugiej skali punktowej (tak jak to tutaj zrobiłem), aby uzyskać stan, który uważam za użyteczny dla dwóch celów, dla których widzę, że ma (i. dokonanie racjonalnie dokładnego oszacowania przewidywanych wartości bez zaciemniania ii. klarowności względnych wkładów na odpowiedź) ..
Glen_b