Wybór modelu Bayesa i wiarygodny przedział

10

Mam zestaw danych z trzema zmiennymi, gdzie wszystkie zmienne są liczbowe. Nazwijmy to , i . Dopasowuję model regresji z perspektywy Bayesa za pomocą MCMCyx1x2rjags

Zrobiłem analizę eksploracyjną, a wykres rozrzutu sugeruje, że należy użyć wyrażenia kwadratowego. Następnie zamontowałem dwa modeley×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

W modelu 1 wielkość efektu każdego parametru nie jest mała, a przedział wiarygodności 95% nie zawiera wartości .0

W modelu 2 wielkość efektu parametrów i są małe i każdy z wiarygodnych przedziałów dla wszystkich parametrów zawiera .β3β40

Fakt, że wiarygodny przedział zawiera wystarczy, aby powiedzieć, że parametr nie jest istotny?0

Następnie dostosowałem następujący model

(3)y=β0+β1x1+β2x2+β3x22

Wielkość efektu każdego parametru nie jest mała, ale z wyjątkiem wszystkie wiarygodne interwały zawierają .β10

Jaki jest właściwy sposób dokonywania wyboru zmiennych w statystyce bayesowskiej?

EDYCJA: Czy mogę używać Lasso w dowolnym modelu regresji, takim jak model Beta? Używam modelu ze zmiennym rozrzutem gdzie

log(σ)=δδX
gdzie δδjest wektorem. Powinienem użyć Laplace'a wcześniejδδ też?

EDYCJA 2: Dopasowałem dwa modele, jeden z apr. Gaussa dlaβj, δj i jeden z Laplace'em (podwójnie wykładniczy).

Szacunki dla modelu Gaussa to

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Szacunki dla modelu Lasso to

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

Szacunki dla δ2 i δ4 znacznie zmniejszyłem w modelu Lasso, to znaczy, że powinienem usunąć te zmienne z modelu?

EDIT3: Model z podwójnym wykładniczym wyprzedzeniem (Lasso) daje mi większe wartości dewiacji, BIC i DIC niż model z gaorskim priorem, a nawet otrzymuję mniejsze wartości po usunięciu współczynnika dyspersjiδ2 w modelu Gaussa.


źródło
2
Sekcja 18.4 DBDA2E * dotyczy wyboru zmiennych w regresji wielokrotnej. Z wielką ostrożnością możesz wprowadzić wskaźniki włączenia dla każdego współczynnika i spojrzeć na prawdopodobieństwo prawdopodobieństwa włączenia z tyłu. Przy interpretacji tylnych rozkładów parametrów 95% HDI, w tym zero, nie oznacza równoważności zeru. * DBDA2E = Doing Bayesian Data Analysis 2nd Edition.
John K. Kruschke
2
Naturalnym sposobem porównywania modeli w ramach bayesowskich są niewielkie prawdopodobieństwa, a nie wiarygodne przedziały. Alternatywą związaną z uśrednianiem modelu jest użycie reprezentacji mieszanki i wywnioskowanie z wag każdego modelu / komponentu, który model jest preferowany przez dane.
Xi'an
@ Xi'an, ale porównanie dwóch lub więcej modeli przy marginalnych prawdopodobieństwach nie byłoby tym samym, co użycie współczynników Bayesa, gdyby wszystkie modele miały takie samo wcześniejsze prawdopodobieństwo?
DeltaIV
Drogi Profesorze Kruschke, mam wątpliwości co do obliczania przedziałów czasowych. Zrozumiałem, że może istnieć wiele wiarygodnych przedziałów w zależności od prawdopodobieństwa a posteriori na podstawie różnych priorytetów. Ale tutaj, jak zdecydować, które przeorki są najbardziej prawdopodobne, co z kolei daje najbardziej prawdopodobny tył? Innym pytaniem jest: używam wnioskowania wariacyjnego (VI) do obliczania tylnej strony i ostatecznie obliczam dolną granicę dowodów modelowych. Jak obliczyć wiarygodny przedział czasowy dla osób bocznych w przypadku VI? Ponadto, jak postępować w przypadku współczynnika Bayesa w przypadku VI?
Sandipan Karmakar,

Odpowiedzi:

9

Powszechnie wiadomo, że budowanie modelu w oparciu o to, co jest znaczące (lub inne kryterium, takie jak AIC, czy wiarygodny przedział zawiera 0 itd.) Jest dość problematyczne, szczególnie jeśli następnie wnioskujesz, jakbyś nie budował modelu. Wykonanie analizy bayesowskiej tego nie zmienia (patrz także https://stats.stackexchange.com/a/201931/86652 ). Tzn. Nie powinieneś dokonywać wyboru zmiennych, ale raczej uśrednianie modelu (lub coś, co mogłoby dać ci jakieś zerowe współczynniki, ale odzwierciedla cały proces modelowania, taki jak LASSO lub siatka elastyczna).

Wybór modelu Bayesa jest częściej określany jako uśrednianie modelu Bayesa. Masz różne modele, każdy o innym wcześniejszym prawdopodobieństwie. Jeśli prawdopodobieństwo modelu tylnego dla modelu staje się wystarczająco niskie, zasadniczo odrzucasz model. Aby uzyskać równe wcześniejsze wagi dla każdego modelu i płaskich priorów, uśrednij model z wagami proporcjonalnymi doexp(BIC/2) dla każdego modelu jest to przybliżone.

Alternatywnie można wyrazić uśrednianie modelu jako liczbę wstępną, która jest mieszaniną między masą punktową (waga masy punktowej to wcześniejsze prawdopodobieństwo, że efekt będzie dokładnie równy zero = efektu nie ma w modelu) i rozkładem ciągłym (np. priory z kolcami i płytami). Próbkowanie MCMC może być dość trudne dla takiego wcześniejszego.

Carvalho i in. wcześniej zmotywuj skurcz podkowy, sugerując, że działa on jak ciągłe przybliżenie przed kolcem i płytą przed. Jest to również przypadek osadzenia problemu w modelu hierarchicznym, w którym do pewnego stopnia wielkość i obecność efektów na niektórych zmiennych nieco rozluźniają wymagane dowody dla innych (poprzez parametr globalnego skurczenia jest to trochę jak fałszywe odkrycie z drugiej strony), a z drugiej strony pozwalają, aby indywidualne efekty stały się samodzielne, jeśli dowody są wystarczająco jasne. Jest to wygodna implementacja dostępna z pakietu brms R, który opiera się na Stan / rstan . Istnieje wiele innych podobnych priorów, takich jak podkowa + przeor, a cały temat jest przedmiotem ciągłych badań.

Björn
źródło
Bayesian Lasso jest taki jak ten stats.stackexchange.com/questions/28609/… ? Jestem modelem ze zmienną dyspersyjną Czy powinienem użyć podwójnego wykładnika przed tymi parametrami?
2

Istnieje wiele formalnych metod selekcji zmiennych bayesowskich. Nieco przestarzały przegląd metod selekcji zmiennych bayesowskich przedstawiono w:

Przegląd metod selekcji zmiennych bayesowskich: co, jak i które

Nowszy przegląd, który obejmuje również porównanie różnych metod i wydajności pakietów R, w których są one zaimplementowane, to:

Metody i narzędzia do wyboru zmiennych bayesowskich i uśredniania modeli w jednoczynnikowej regresji liniowej

Odniesienie to jest szczególnie przydatne, ponieważ wskazuje na określone pakiety R, w których wystarczy podłączyć odpowiedź i wartości zmiennych towarzyszących (aw niektórych przypadkach wartości hiperparametrów), aby uruchomić wybór zmiennych.

Innym, szybkim i brudnym i niezalecanym sposobem przeprowadzania selekcji zmiennych „bayesowskich” jest stosowanie selekcji krokowej (do przodu, do tyłu, obie) za pomocą BIC i komendy R stepAIC (), którą można dostosować, aby dokonać selekcji pod względem BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Kolejny szybki i brudny sposób testowania β4=0 jest za pomocą współczynnika gęstości Savage'a-Dickeya i tylnej symulacji, którą już masz:

https://arxiv.org/pdf/0910.1452.pdf

CTHULHU
źródło
Myślę, że pytanie brzmi: dlaczego wszystkie trzy parametry w modelu 3 mają wiarygodne regiony zawierające 0, a nie to, czy nie β4wynosi 0.
Michael R. Chernick
@MichaelChernick Więc dlaczego OP pyta "In this case is reasonable say that $\beta_4\neq 0$"? i "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU
Brakowało mi tej części pytania, ale nie sądzę, żeby była to główna kwestia.
Michael R. Chernick
1
@MichaelChernick Cóż, myślę, że OP ma tutaj ostatnie słowo ...
CTHULHU
1

Cała idea statystyki bayesowskiej różni się od podejścia częstego. W ten sposób uważam, że użycie terminów istotności nie jest dokładne. Wydaje mi się, że to czytelnik decyduje, czy wyniki (dystrybucja), które otrzymujesz z modelu dla ciebieβsą dla niego wiarygodni lub godni zaufania. Zawsze zależy od samej dystrybucji. Jak bardzo jest przekrzywiony i szeroki i ile powierzchni jest poniżej zera?

Miły wykład na ten temat można znaleźć tutaj o 41:55:

https://vimeo.com/14553953

burton030
źródło
Dodałem przykład histogramu jednej zmiennej, która zawiera wiarygodny interwał 0mógłbyś rzucić okiem?
1
Powrót z weekendu. Gdzie możemy znaleźć histogram?
burton030