Mam zestaw danych z trzema zmiennymi, gdzie wszystkie zmienne są liczbowe. Nazwijmy to , i . Dopasowuję model regresji z perspektywy Bayesa za pomocą MCMCrjags
Zrobiłem analizę eksploracyjną, a wykres rozrzutu sugeruje, że należy użyć wyrażenia kwadratowego. Następnie zamontowałem dwa modele
(1)
(2)
W modelu 1 wielkość efektu każdego parametru nie jest mała, a przedział wiarygodności 95% nie zawiera wartości .
W modelu 2 wielkość efektu parametrów i są małe i każdy z wiarygodnych przedziałów dla wszystkich parametrów zawiera .
Fakt, że wiarygodny przedział zawiera wystarczy, aby powiedzieć, że parametr nie jest istotny?
Następnie dostosowałem następujący model
(3)
Wielkość efektu każdego parametru nie jest mała, ale z wyjątkiem wszystkie wiarygodne interwały zawierają .
Jaki jest właściwy sposób dokonywania wyboru zmiennych w statystyce bayesowskiej?
EDYCJA: Czy mogę używać Lasso w dowolnym modelu regresji, takim jak model Beta? Używam modelu ze zmiennym rozrzutem gdzie
EDYCJA 2: Dopasowałem dwa modele, jeden z apr. Gaussa dla, i jeden z Laplace'em (podwójnie wykładniczy).
Szacunki dla modelu Gaussa to
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
Szacunki dla modelu Lasso to
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
Szacunki dla i znacznie zmniejszyłem w modelu Lasso, to znaczy, że powinienem usunąć te zmienne z modelu?
EDIT3: Model z podwójnym wykładniczym wyprzedzeniem (Lasso) daje mi większe wartości dewiacji, BIC i DIC niż model z gaorskim priorem, a nawet otrzymuję mniejsze wartości po usunięciu współczynnika dyspersji w modelu Gaussa.
Odpowiedzi:
Powszechnie wiadomo, że budowanie modelu w oparciu o to, co jest znaczące (lub inne kryterium, takie jak AIC, czy wiarygodny przedział zawiera 0 itd.) Jest dość problematyczne, szczególnie jeśli następnie wnioskujesz, jakbyś nie budował modelu. Wykonanie analizy bayesowskiej tego nie zmienia (patrz także https://stats.stackexchange.com/a/201931/86652 ). Tzn. Nie powinieneś dokonywać wyboru zmiennych, ale raczej uśrednianie modelu (lub coś, co mogłoby dać ci jakieś zerowe współczynniki, ale odzwierciedla cały proces modelowania, taki jak LASSO lub siatka elastyczna).
Wybór modelu Bayesa jest częściej określany jako uśrednianie modelu Bayesa. Masz różne modele, każdy o innym wcześniejszym prawdopodobieństwie. Jeśli prawdopodobieństwo modelu tylnego dla modelu staje się wystarczająco niskie, zasadniczo odrzucasz model. Aby uzyskać równe wcześniejsze wagi dla każdego modelu i płaskich priorów, uśrednij model z wagami proporcjonalnymi doexp(−BIC/2) dla każdego modelu jest to przybliżone.
Alternatywnie można wyrazić uśrednianie modelu jako liczbę wstępną, która jest mieszaniną między masą punktową (waga masy punktowej to wcześniejsze prawdopodobieństwo, że efekt będzie dokładnie równy zero = efektu nie ma w modelu) i rozkładem ciągłym (np. priory z kolcami i płytami). Próbkowanie MCMC może być dość trudne dla takiego wcześniejszego.
Carvalho i in. wcześniej zmotywuj skurcz podkowy, sugerując, że działa on jak ciągłe przybliżenie przed kolcem i płytą przed. Jest to również przypadek osadzenia problemu w modelu hierarchicznym, w którym do pewnego stopnia wielkość i obecność efektów na niektórych zmiennych nieco rozluźniają wymagane dowody dla innych (poprzez parametr globalnego skurczenia jest to trochę jak fałszywe odkrycie z drugiej strony), a z drugiej strony pozwalają, aby indywidualne efekty stały się samodzielne, jeśli dowody są wystarczająco jasne. Jest to wygodna implementacja dostępna z pakietu brms R, który opiera się na Stan / rstan . Istnieje wiele innych podobnych priorów, takich jak podkowa + przeor, a cały temat jest przedmiotem ciągłych badań.
źródło
Istnieje wiele formalnych metod selekcji zmiennych bayesowskich. Nieco przestarzały przegląd metod selekcji zmiennych bayesowskich przedstawiono w:
Przegląd metod selekcji zmiennych bayesowskich: co, jak i które
Nowszy przegląd, który obejmuje również porównanie różnych metod i wydajności pakietów R, w których są one zaimplementowane, to:
Metody i narzędzia do wyboru zmiennych bayesowskich i uśredniania modeli w jednoczynnikowej regresji liniowej
Odniesienie to jest szczególnie przydatne, ponieważ wskazuje na określone pakiety R, w których wystarczy podłączyć odpowiedź i wartości zmiennych towarzyszących (aw niektórych przypadkach wartości hiperparametrów), aby uruchomić wybór zmiennych.
Innym, szybkim i brudnym i niezalecanym sposobem przeprowadzania selekcji zmiennych „bayesowskich” jest stosowanie selekcji krokowej (do przodu, do tyłu, obie) za pomocą BIC i komendy R stepAIC (), którą można dostosować, aby dokonać selekcji pod względem BIC.
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
Kolejny szybki i brudny sposób testowaniaβ4=0 jest za pomocą współczynnika gęstości Savage'a-Dickeya i tylnej symulacji, którą już masz:
https://arxiv.org/pdf/0910.1452.pdf
źródło
"In this case is reasonable say that $\beta_4\neq 0$"
? i"Which is the right way to do variable selection in Bayesian statistics"
?Cała idea statystyki bayesowskiej różni się od podejścia częstego. W ten sposób uważam, że użycie terminów istotności nie jest dokładne. Wydaje mi się, że to czytelnik decyduje, czy wyniki (dystrybucja), które otrzymujesz z modelu dla ciebieβ są dla niego wiarygodni lub godni zaufania. Zawsze zależy od samej dystrybucji. Jak bardzo jest przekrzywiony i szeroki i ile powierzchni jest poniżej zera?
Miły wykład na ten temat można znaleźć tutaj o 41:55:
https://vimeo.com/14553953
źródło