Po co używać linku logit w regresji beta?

14

Ostatnio byłem zainteresowany wdrożeniem modelu regresji beta, dla wyniku, który jest proporcjonalny. Zauważ, że wynik ten nie mieści się w kontekście dwumianowym, ponieważ w tym kontekście nie ma sensownego pojęcia dyskretnego „sukcesu”. W rzeczywistości wynik jest faktycznie czasem trwania; licznik jest liczbą sekund, podczas których określony warunek jest aktywny przez całkowitą liczbę sekund, w których warunek kwalifikował się do aktywacji. Przepraszam za kaprysy, ale nie chcę zbytnio koncentrować się na tym precyzyjnym kontekście, ponieważ zdaję sobie sprawę, że istnieje wiele sposobów modelowania takiego procesu poza regresją beta, a na razie jestem bardziej zainteresowany teoretycznie pytania, które pojawiły się podczas moich prób wdrożenia takiego modelu (choć oczywiście jestem

W każdym razie wszystkie zasoby, które udało mi się znaleźć, wskazują, że regresja beta jest zazwyczaj dopasowana przy użyciu linku logit (lub probit / cloglog), a parametry interpretowane jako zmiany w logarytmicznych szansach. Jednak muszę jeszcze znaleźć odniesienie, które faktycznie daje jakiekolwiek uzasadnienie, dlaczego ktoś chciałby skorzystać z tego linku.

Oryginalny artykuł Ferrari i Cribari-Neto (2004) nie zawiera uzasadnienia; zauważają tylko, że funkcja logit jest „szczególnie użyteczna”, ze względu na interpretację ilorazu szans potęgowanych parametrów. Inne źródła nawiązują do chęci mapowania od przedziału (0,1) do linii rzeczywistej. Czy jednak koniecznie potrzebujemy funkcji link do takiego mapowania, biorąc pod uwagę, że już zakładamy dystrybucję beta? Jakie korzyści zapewnia funkcja link ponad ograniczenia narzucone przy założeniu, że dystrybucja beta na początek?Przeprowadziłem kilka szybkich symulacji i nie widziałem prognoz poza przedziałem (0,1) z łączem tożsamości, nawet podczas symulacji z rozkładów beta, których masa prawdopodobieństwa jest w dużej mierze skupiona w pobliżu 0 lub 1, ale być może moje symulacje nie był na tyle ogólny, by złapać niektóre patologie.

Wydaje mi się na podstawie tego, jak jednostki w praktyce interpretują oszacowania parametrów z modeli regresji beta (tj. Jako ilorazy szans), że domyślnie dokonują wnioskowania w odniesieniu do szans na „sukces”; oznacza to, że używają regresji beta jako substytutu modelu dwumianowego. Być może jest to właściwe w niektórych kontekstach, biorąc pod uwagę związek między rozkładami beta i dwumianowymi, ale wydaje mi się, że powinien to być bardziej szczególny przypadek niż ogólny. W tym pytaniu znajduje się odpowiedź na interpretację ilorazu szans w odniesieniu do proporcji ciągłej, a nie wyniku, ale wydaje mi się, że niepotrzebnie kłopotliwe jest interpretowanie rzeczy w ten sposób, zamiast używania, powiedzmy, dziennika lub link tożsamości i interpretacja zmian% lub przesunięć jednostek.

Dlaczego więc używamy linku logit do modeli regresji beta? Czy odniesienie go do modeli dwumianowych jest po prostu dla wygody?

Ryan Simmons
źródło

Odpowiedzi:

8

Uzasadnienie funkcji link: Funkcja link zapewnia, że ​​wszystkie dopasowane wartości są zawsze w . Może to nie mieć większego znaczenia w niektórych aplikacjach, np. Dlatego, że prognozy lub tylko ocenione w próbie lub nie są zbyt bliskie 0 lub 1. Ale może to mieć znaczenie w niektórych aplikacjach i zazwyczaj nie wiesz z góry, czy to ważne, czy nie. Typowe problemy, które widziałem, to: ocena prognoz nowych wartości , które (nieznacznie) są poza zakresem oryginalnej próby uczenia się lub znalezienie odpowiednich wartości początkowych. W przypadku tych ostatnich rozważ:μ = g - 1 ( x beta ) ( 0 , 1 ) xg(μ):(0,1)Rμ^=g1(xβ^)(0,1)x

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Ale oczywiście można po prostu wypróbować obie opcje i sprawdzić, czy występują problemy z łączem tożsamości i / lub czy poprawia dopasowanie modelu.

Interpretacja parametrów: Zgadzam się, że interpretacja parametrów w modelach z funkcjami łączenia jest trudniejsza niż w modelach z łączem tożsamości, a praktykujący często mylą się. Jednak często widziałem również błędną interpretację parametrów w liniowych modelach prawdopodobieństwa (regresje binarne z łączem tożsamości, zwykle o najmniejszych kwadratach). Założenie, że efekty krańcowe są stałe, nie może się utrzymać, jeśli prognozy zbliżą się wystarczająco do 0 lub 1 i należałoby być naprawdę ostrożnym. Np. Dla obserwacji z wzrost nie może prowadzić do zmniejszenia , powiedzmy,x μ 0,02μ^=0.01xμ^0.02. Ale w tych scenariuszach często jest to traktowane bardzo niechlujnie. Dlatego argumentowałbym, że w przypadku modelu ograniczonej odpowiedzi parametry z dowolnej funkcji łącza muszą być interpretowane ostrożnie i mogą wymagać pewnej praktyki. Dlatego zwykle zalecam (jak pokazano w innej dyskusji, do której link podałeś w swoim pytaniu), aby przyjrzeć się efektom dla interesujących konfiguracji regresora. Są one łatwiejsze do interpretacji i często (ale nie zawsze) raczej podobne (z praktycznego punktu widzenia) dla różnych funkcji łącza.

Achim Zeileis
źródło
10

Niepoprawne jest to, że regresji logistycznej można używać tylko do modelowania danych wyników binarnych. Model regresji logistycznej jest odpowiedni dla wszystkich danych, w których 1) oczekiwana wartość wyniku jest zgodna z krzywą logistyczną jako funkcja predyktorów 2) wariancja wyniku to oczekiwany wynik razy jeden minus oczekiwany wynik (lub jego część) 3) (konsekwencja 2) zakresy danych od 0 do 1. Te właściwości z pewnością dotyczą danych Bernoulliego. Należy jednak podjąć pewne statystyki i wykresy eksploracyjne, zanim natychmiast zdyskredytuje model logistyczny jako realny (i łatwy do wdrożenia / wyjaśnienia) sposób na odpowiedź na pytanie naukowe.

Model regresji logistycznej jest szczególnym przypadkiem uogólnionego modelu liniowego (GLM), co oznacza, że ​​model podaje spójne oszacowania parametrów i wnioskowanie. Modele logistyczne są używane do modelowania proporcji, zmiennych porządkowych, wskaźników, wyników egzaminów, rang i wszelkiego rodzaju wyników niebinarnych w kilku miejscach literatury.

Przepraszam, że ta odpowiedź nie kieruje twojego pytania w dół, ale podanie wcześniejszego uzasadnienia powoduje nieporozumienie, które warto rozwiązać.

Wielu użytkowników R. zasugerowało, że „ostrzeżenie” wynikające z ciągłego reagowania na modele logistyczne powinno zostać stłumione. „Środkiem drogi” jest zmiana family=binomialna family=quasibinomial. Przykład symulacji tych danych, dopasowania modelu i uzyskania prawidłowego wnioskowania pokazano tutaj:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Daje dokładne 90% pokrycie CI

AdamO
źródło
1
Doceniam podane wyjaśnienie dotyczące modelu regresji logistycznej. Masz rację, że jest to model bardziej ogólny niż się często zakłada. Waham się jednak, czy przyjąć to jako odpowiedź, ponieważ wydaje się, że nie dość dobrze rozwija ona rozumowanie. Wydaje mi się, że mówisz, że moje obawy dotyczące linku logit w modelu beta są bezzasadne, ponieważ link logit działa dobrze na danych niebinarnych. Co jest rozsądnym stanowiskiem, ale wydaje mi się, że nie do końca rozumiem sedno mojego pytania o to, dlaczego używamy logit w modelu beta i jak go interpretować.
Ryan Simmons
1
@RyanSimmons Dzięki za opinie. Zgadzam się z twoim rozumowaniem tutaj. Myślę, że każda „okazja do nauki” uzasadnia odpowiedź, a zatem jedno pytanie może mieć wiele możliwych odpowiedzi z różnym stopniem „słuszności”. Nie poruszyłem twojego pytania, które jest dobre, więc może być jeszcze „trafniejsza” odpowiedź. Jestem tego ciekawy, więc staram się przeczytać więcej na ten temat.
AdamO