Rysuj i interpretuj porządkową regresję logistyczną

19

Mam zmienną zależną od liczby porządkowej, łatwość, która waha się od 1 (niełatwo) do 5 (bardzo łatwo). Wzrost wartości niezależnych czynników jest związany ze zwiększoną oceną łatwości.

Dwie moje niezależne zmienne ( condAi condB) są kategoryczne, każda z 2 poziomami, a 2 ( abilityA, abilityB) są ciągłe.

Korzystam z porządkowego pakietu w R, gdzie używa tego, co moim zdaniem jest

(z odpowiedzi @ caracaltutaj)

logit(p(Ysol))=lnp(Ysol)p(Y>sol)=β0sol-(β1X1++βpXp)(sol=1,,k-1)

Uczyłem się tego samodzielnie i byłbym wdzięczny za wszelką możliwą pomoc, ponieważ wciąż mam z tym problem. Oprócz samouczków towarzyszących paczce porządkowej znalazłem również następujące informacje:

Ale próbuję zinterpretować wyniki, zebrać różne zasoby i utknąć.

  1. Czytałem wiele różnych wyjaśnień, zarówno abstrakcyjnych, jak i stosowanych, ale wciąż trudno mi się skupić na tym, co to znaczy:

    Przy wzroście o 1 jednostkę condB (tj. Zmianie z jednego poziomu na drugi z predyktora jakościowego), przewidywane szanse na zaobserwowanie Y = 5 w porównaniu z Y = 1 do 4 (jak również przewidywane szanse na zaobserwowane Y = 4 w porównaniu z Y = 1 do 3) zmiana o współczynnik exp (beta), który dla diagramu wynosi exp (0,457) = 1,58.

    za. Czy jest inaczej w przypadku zmiennych niezależnych jakościowych i ciągłych?
    b. Częścią moich trudności może być pomysł skumulowanych szans i te porównania. ... Czy można powiedzieć, że przejście z condA = nieobecny (poziom odniesienia) do condA = obecny jest 1,58 razy bardziej prawdopodobne, że zostanie oceniony na wyższym poziomie łatwości? Jestem pewien, że to NIE jest poprawne, ale nie jestem pewien, jak poprawnie to stwierdzić.

Graficznie:
1. Wdrażając kod w tym poście , nie jestem pewien, dlaczego wartości „prawdopodobieństwa” są tak duże.
2. Wykres p (Y = g) w tym poście jest dla mnie najbardziej sensowny ... z interpretacją prawdopodobieństwa zaobserwowania określonej kategorii Y przy określonej wartości X. Powód, dla którego próbuję uzyskać przede wszystkim wykres ma na celu lepsze zrozumienie ogólnych wyników.

Oto dane wyjściowe z mojego modelu:

m1c2 <- clmm (easiness ~ condA + condB + abilityA + abilityB + (1|content) + (1|ID), 
              data = d, na.action = na.omit)
summary(m1c2)
Cumulative Link Mixed Model fitted with the Laplace approximation

formula: 
easiness ~ illus2 + dx2 + abilEM_obli + valueEM_obli + (1 | content) +  (1 | ID)
data:    d

link  threshold nobs logLik  AIC    niter     max.grad
logit flexible  366  -468.44 956.88 729(3615) 4.36e-04
cond.H 
4.5e+01

Random effects:
 Groups  Name        Variance Std.Dev.
 ID      (Intercept) 2.90     1.70    
 content  (Intercept) 0.24     0.49    
Number of groups:  ID 92,  content 4 

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
condA              0.681      0.213    3.20   0.0014 ** 
condB              0.457      0.211    2.17   0.0303 *  
abilityA           1.148      0.255    4.51  6.5e-06 ***
abilityB           0.577      0.247    2.34   0.0195 *  

Threshold coefficients:
    Estimate Std. Error z value
1|2   -3.500      0.438   -7.99
2|3   -1.545      0.378   -4.08
3|4    0.193      0.366    0.53
4|5    2.121      0.385    5.50
jc7
źródło
4
+1, miło jest widzieć tak dobrze zbadane i sformułowane pytanie. Witamy w CV.
gung - Przywróć Monikę

Odpowiedzi:

2

Notatki z moich strategii modelowania regresji zawierają dwa rozdziały o regresji porządkowej, które mogą pomóc. Zobacz także ten samouczek.

Notatki z kursu szczegółowo omawiają założenia modelu, sposób ich sprawdzania i interpretacji dopasowanego modelu.

Frank Harrell
źródło
Gotowe - dzięki za alert
Frank Harrell