Mam pewne dane w [0,1], które chciałbym przeanalizować za pomocą regresji beta. Oczywiście należy coś zrobić, aby uwzględnić wartości 0,1. Nie lubię modyfikować danych, aby pasowały do modelu. również nie uważam, aby inflacja zero i 1 była dobrym pomysłem, ponieważ uważam, że w tym przypadku należy uznać wartości zerowe za bardzo małe wartości dodatnie (ale nie chcę powiedzieć dokładnie, jaka wartość jest odpowiednia. Rozsądny wybór Wierzę, że byłoby wybrać małe wartości, takie jak .001 i .999 i dopasować model przy użyciu skumulowanego dystansu dla wersji beta. Więc dla obserwacji y_i prawdopodobieństwo dziennika LL byłoby
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
W tym modelu podoba mi się to, że jeśli model regresji beta jest prawidłowy, model ten jest również prawidłowy, ale usuwa nieco wrażliwość na wartości ekstremalne. Wydaje się jednak, że jest to tak naturalne podejście, że zastanawiam się, dlaczego nie znalazłem żadnych oczywistych odniesień w literaturze. Więc moje pytanie dotyczy modyfikacji danych, dlaczego nie zmodyfikować modelu. Modyfikowanie danych wpływa negatywnie na wyniki (w oparciu o założenie, że oryginalny model jest prawidłowy), natomiast modyfikowanie modelu poprzez zbrojenie wartości ekstremalnych nie powoduje odchylenia wyników.
Może jest problem, który przeoczam?
źródło
Odpowiedzi:
Zgodnie z tym artykułem odpowiednia jest transformacja
Spowoduje to ściśnięcie danych, które znajdują się w aby znaleźć się w ( 0 , 1 ) . Powyższy cytat oraz matematyczny powód transformacji są dostępne w dodatkowych uwagach do artykułu .[ 0 , 1 ] ( 0 , 1 )
źródło
Dave,
Powszechnym podejściem do tego problemu jest dopasowanie 2 modeli regresji logistycznej, aby przewidzieć, czy przypadek ma wartość 0 czy 1. Następnie regresję beta stosuje się dla tych z zakresu (0,1).
źródło
Uważam, że oba są łatwe do oszacowania w sposób bayesowski, ponieważ oba są rodzinami wykładniczymi. Jest to modyfikacja modelu, na którą liczyłeś.
źródło
Myślę, że faktyczną „prawidłową” odpowiedzią na to pytanie jest regresja beta zawyżona do zera jeden. Służy to do obsługi danych, które zmieniają się w sposób ciągły w przedziale [0,1], i pozwala na umieszczenie wielu rzeczywistych zer i jedynek w danych. Podejście to pasuje do trzech oddzielnych modeli w kontekście bayesowskim, podobnie jak zaproponował @B_Miner.
Model 1: Czy wartość jest dyskretna 0/1, czy jest wartością w (0,1)? Pasuje do dystrybucji bernoulli.
Model 2: Dopasuj dyskretny podzbiór z rozkładem Bernoulliego.
Model 3: Podzbiór Fit (0,1) z regresją beta.
Do prognozowania wyniki pierwszego modelu można wykorzystać do ważenia prognoz modeli 2 i 3. Można to zaimplementować w
zoib
pakiecie R lub przygotować w domu w BUGS / JAGS / STAN / itp.źródło