Mamy dane z wynikiem binarnym i niektóre zmienne towarzyszące. Użyłem regresji logistycznej do modelowania danych. Po prostu prosta analiza, nic nadzwyczajnego. Ostatecznym wyjściem ma być krzywa zależności odpowiedzi od dawki, na której pokazujemy, jak zmienia się prawdopodobieństwo dla konkretnej zmiennej towarzyszącej. Coś takiego:
Otrzymaliśmy krytykę od wewnętrznego recenzenta (nie tylko statystycznego) za wybór regresji logistycznej. Regresja logistyczna zakłada (lub definiuje), że punkt przegięcia krzywej w kształcie litery S na skali prawdopodobieństwa wynosi prawdopodobieństwo 0,5. Argumentował, że nie ma powodu, aby zakładać, że punkt przegięcia rzeczywiście ma prawdopodobieństwo 0,5 i powinniśmy wybrać inny model regresji, który pozwala na zmianę punktu przegięcia tak, aby rzeczywista pozycja była sterowana danymi.
Na początku zaskoczył mnie jego argument, ponieważ nigdy nie myślałem o tym punkcie. Nie miałem żadnych argumentów, dlaczego uzasadnione byłoby założenie, że punkt przegięcia wynosi 0,5. Po przeprowadzeniu badań wciąż nie mam odpowiedzi na to pytanie.
Natknąłem się na 5-parametrową regresję logistyczną, dla której punkt przegięcia jest dodatkowym parametrem, ale wydaje się, że ten model regresji jest zwykle używany podczas tworzenia krzywych dawka-odpowiedź z ciągłym wynikiem. Nie jestem pewien, czy i jak można go rozszerzyć na binarne zmienne odpowiedzi.
Myślę, że moje główne pytanie brzmi: dlaczego lub kiedy można założyć, że punkt przegięcia dla regresji logistycznej wynosi 0,5? Czy to w ogóle ma znaczenie? Nigdy nie widziałem, żeby ktoś pasował do modelu regresji logistycznej i wyraźnie dyskutował o kwestii punktu przegięcia. Czy istnieją alternatywy dla utworzenia krzywej odpowiedzi na dawkę, w której punkt przegięcia niekoniecznie wynosi 0,5?
Dla kompletności kod R do wygenerowania powyższego obrazu:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Edycja 1:
Wystarczy dodać do tego, co powiedział Scortchi w jednym z komentarzy: Recenzent rzeczywiście twierdził, że biologicznie bardziej prawdopodobne jest, że zmiana krzywizny nastąpi wcześniej niż 0,5. Dlatego jego opór wobec założenia, że punkt przegięcia wynosi 0,5.
Edycja 2:
W reakcji na komentarz Franka Harrella:
Jako przykład zmodyfikowałem mój model powyżej, aby uwzględnić kwadratowy i sześcienny termin w gre
(który jest „dawką” w tym przykładzie).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Pomimo tego, że dodanie gre
w tym przypadku wyrażenia kwadratowego i sześciennego prawdopodobnie nie ma sensu , widzimy, że zmieniła się forma krzywej dawka-odpowiedź. Rzeczywiście mamy teraz dwa punkty przegięcia na około 0,25 i blisko 0,7.
Odpowiedzi:
Jak poruszył @scortchi, recenzent działał pod fałszywym wrażeniem, że nie jest możliwe modelowanie nieliniowych efektów predyktorów na skali logitów w kontekście regresji logistycznej. Pierwotny model szybko przyjął liniowość wszystkich predyktorów. Poprzez złagodzenie założenia liniowości, stosując na przykład ograniczone splajny sześcienne (splajny naturalne), cały kształt krzywej jest elastyczny, a punkt przegięcia nie stanowi już problemu. Gdyby istniał jeden predyktor i zostałby rozszerzony za pomocą splajnu regresji, można by powiedzieć, że model logistyczny przyjmuje jedynie założenia płynności i niezależności obserwacji.
źródło
Wydaje mi się, że recenzent po prostu szukał czegoś do powiedzenia. Przed zbadaniem takich cech specyfikacji, jak domniemany punkt przegięcia, istnieje mnóstwo założeń, które przyjęliśmy, aby dojść do możliwego do oszacowania modelu. Wszystko można kwestionować i debatować - wykorzystanie samej funkcji logistycznej jest możliwym głównym celem: kto powiedział nam, że warunkowy rozkład warunku błędu jest logistyczny? Nikt.
Tak więc pytanie brzmi: co oznacza zmiana krzywizny? Jak ważne dla badanego zjawiska w świecie rzeczywistym może być moment, w którym następuje zmiana krzywizny, abyśmy mogli rozważyć uczynienie go „sterowanym danymi”? Odchodzisz od zasady parsimony?
Pytanie nie brzmi „dlaczego punkt przegięcia powinien wynosić 0,5?” Ale „jak może być mylące dla naszych wniosków, jeśli zostanie pozostawione na poziomie 0,5?”.
źródło
W przypadku mho regresja logit jest rozsądnym wyborem dla odpowiedzi na dawkę. Oczywiście możesz użyć probit, log-log, c-log-log link i porównać stopień dopasowania (DEV, BIC, CAIC itp.). Ale najprostsza regresja logit daje wygodną formalną ocenę punktu przegięcia LD50 = -b0 / b1. Pamiętamy, że jest to szczególny punkt, dla którego uzyskujemy minimalną niepewność (por. LD16, LD84 i wszelkie inne będą miały szersze CI, patrz „Analiza probitowa” Finneya, 1947, 1977). zawsze (?) Lepiej było użyć logarytmu dawki, a następnie po prostu przekonwertować 95% CI w oryginalnej skali. Jaka jest natura innych zmiennych towarzyszących w modelu? Nawiązuję do możliwości zastosowania podejścia wielomodelowego ... Oczywiście splajny są elastyczne, ale parametry formalne są interpretowane łatwiej!
Zobacz http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm
źródło
Punkt przegięcia 0,5 jest małą częścią większego pytania: równanie logistyczne jest konstrukcyjnie symetryczne. I w większości pochodnych modelowany efekt ma powód, aby być symetrycznym. np. gdy jeden gracz wygrywa, drugi traci, lub efekt odpowiedzialny za nasycenie jest tym samym efektem fizycznym, który odpowiada za początkowy wzrost itp. Więc jeśli istnieje powód, dla którego źródło zachowania o niskim X jest tego samego pochodzenia ponieważ prawa ręka zachowuje się z jakiegokolwiek innego powodu, problem jest symetryczny, więc masz swoje uzasadnienie.
jeśli nie, być może następnym najprostszym modelem jest uogólnione równanie logistyczne. ma więcej parametrów i możesz chcieć dodać ograniczenie, aby nie wszystkie były parametrami bezpłatnymi. jest to prawdopodobnie bardziej pożądane niż kludges, które dodałeś, ponieważ dodają półki, w których pierwsza pochodna oscyluje tam iz powrotem - tego rodzaju rzeczy mają tendencję do tworzenia fikcyjnych fałszywych punktów równowagi lokalnej, jeśli próbujesz zoptymalizować pewną wartość oczekiwaną tej dystrybucja. forma uogólniona złamie symetrię, ale w płynny sposób.
źródło