Ostatnio byłem zainteresowany wdrożeniem modelu regresji beta, dla wyniku, który jest proporcjonalny. Zauważ, że wynik ten nie mieści się w kontekście dwumianowym, ponieważ w tym kontekście nie ma sensownego pojęcia dyskretnego „sukcesu”. W rzeczywistości wynik jest faktycznie czasem trwania; licznik jest liczbą sekund, podczas których określony warunek jest aktywny przez całkowitą liczbę sekund, w których warunek kwalifikował się do aktywacji. Przepraszam za kaprysy, ale nie chcę zbytnio koncentrować się na tym precyzyjnym kontekście, ponieważ zdaję sobie sprawę, że istnieje wiele sposobów modelowania takiego procesu poza regresją beta, a na razie jestem bardziej zainteresowany teoretycznie pytania, które pojawiły się podczas moich prób wdrożenia takiego modelu (choć oczywiście jestem
W każdym razie wszystkie zasoby, które udało mi się znaleźć, wskazują, że regresja beta jest zazwyczaj dopasowana przy użyciu linku logit (lub probit / cloglog), a parametry interpretowane jako zmiany w logarytmicznych szansach. Jednak muszę jeszcze znaleźć odniesienie, które faktycznie daje jakiekolwiek uzasadnienie, dlaczego ktoś chciałby skorzystać z tego linku.
Oryginalny artykuł Ferrari i Cribari-Neto (2004) nie zawiera uzasadnienia; zauważają tylko, że funkcja logit jest „szczególnie użyteczna”, ze względu na interpretację ilorazu szans potęgowanych parametrów. Inne źródła nawiązują do chęci mapowania od przedziału (0,1) do linii rzeczywistej. Czy jednak koniecznie potrzebujemy funkcji link do takiego mapowania, biorąc pod uwagę, że już zakładamy dystrybucję beta? Jakie korzyści zapewnia funkcja link ponad ograniczenia narzucone przy założeniu, że dystrybucja beta na początek?Przeprowadziłem kilka szybkich symulacji i nie widziałem prognoz poza przedziałem (0,1) z łączem tożsamości, nawet podczas symulacji z rozkładów beta, których masa prawdopodobieństwa jest w dużej mierze skupiona w pobliżu 0 lub 1, ale być może moje symulacje nie był na tyle ogólny, by złapać niektóre patologie.
Wydaje mi się na podstawie tego, jak jednostki w praktyce interpretują oszacowania parametrów z modeli regresji beta (tj. Jako ilorazy szans), że domyślnie dokonują wnioskowania w odniesieniu do szans na „sukces”; oznacza to, że używają regresji beta jako substytutu modelu dwumianowego. Być może jest to właściwe w niektórych kontekstach, biorąc pod uwagę związek między rozkładami beta i dwumianowymi, ale wydaje mi się, że powinien to być bardziej szczególny przypadek niż ogólny. W tym pytaniu znajduje się odpowiedź na interpretację ilorazu szans w odniesieniu do proporcji ciągłej, a nie wyniku, ale wydaje mi się, że niepotrzebnie kłopotliwe jest interpretowanie rzeczy w ten sposób, zamiast używania, powiedzmy, dziennika lub link tożsamości i interpretacja zmian% lub przesunięć jednostek.
Dlaczego więc używamy linku logit do modeli regresji beta? Czy odniesienie go do modeli dwumianowych jest po prostu dla wygody?
źródło