Estymator Bayesa jest odporny na uprzedzenia selekcyjne

Czy estymatory Bayesa są odporne na stronniczość selekcji?

Większość artykułów omawiających oszacowanie w dużym wymiarze, np. Dane o sekwencji całego genomu, często porusza kwestię błędu selekcji. Błąd selekcji wynika z faktu, że chociaż mamy tysiące potencjalnych predyktorów, tylko kilka zostanie wybranych, a wnioskowanie zostanie przeprowadzone na wybranych. Proces przebiega zatem w dwóch etapach: (1) wybierz podzbiór predyktorów (2) wykonaj wnioskowanie na wybranych zestawach, np. Oszacuj iloraz szans. Dawid w swoim paradoksalnym artykule z 1994 r. Skupił się na obiektywnych estymatorach i estymatorach Bayesa. Upraszcza problem wyboru największego efektu, który może być efektem leczenia. Następnie mówi, że na obiektywne estymatory wpływa uprzedzenie selekcyjne. Użył przykładu: załóżmy, że a następnie każde jest bezstronne dla . Niech , estymator jest jednak tendencyjny (pozytywnie) dla

Z_{i} \sim N (δ_{i}, 1), i = 1, \dots, N

$Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N$

Z_{i}

$Z_i$

δ_{i}

$\delta_i$

Z = (Z_{1}, Z_{2}, \dots, Z_{N})^{T}

$\mathbf{Z}=(Z_1,Z_2,\ldots,Z_N)^T$

γ_{1} (Z) = max {Z_{1}, Z_{2}, \dots, Z_{N}}

$\gamma_1(\mathbf{Z})=\max\{Z_1,Z_2,\ldots,Z_N\}$

. To stwierdzenie można łatwo udowodnić za pomocą nierówności Jensena. Dlatego jeśli znamy

, indeks największego

, użyjemy

jako estymatora, który jest bezstronny. Ale ponieważ tego nie wiemy,zamiasttego używamy

co staje się stronnicze (pozytywnie).

max {δ_{1}, δ_{2}, \dots, δ_{N}}

$\max\{\delta_1,\delta_2,\ldots,\delta_N\}$

i_{max}

$i_{\max}$

δ_{i}

$\delta_i$

Z_{i_{max}}

$Z_{i_{\max}}$

γ_{1} (Z)

$\gamma_1(\mathbf{Z})$

$\delta_i$ $\delta_i\sim g(.)$ $\delta_i$

E {δ_{i} ∣ Z_{i}} = z_{i} + \frac{d}{d z_{i}} m (z_{i})

$\text{E}\{\delta_i\mid Z_i\}=z_i+\frac{d}{dz_i}m(z_i)$

m (z_{i}) = \int φ (z_{i} - δ_{i}) g (δ_{i}) d δ_{i}

$m(z_i)=\int \varphi(z_i-\delta_i)g(\delta_i)d\delta_i$

φ (.)

$\varphi(.)$

$\delta_{i_{\max}}$

γ_{2} (Z) = max {E {δ_{1} ∣ Z_{1}}, E {δ_{2} ∣ Z_{2}}, \dots, E {δ_{N} ∣ Z_{N}}},

$\gamma_2(\mathbf{Z})=\max\{\text{E}\{\delta_1\mid Z_1\},\text{E}\{\delta_2\mid Z_2\},\ldots,\text{E}\{\delta_N\mid Z_N\}\},$

i

$i$

δ_{i_{max}}

$\delta_{i_{\max}}$

γ_{1} (Z)

$\gamma_1(\mathbf{Z})$

i

$i$

γ_{2} (Z)

$\gamma_2(\mathbf{Z})$

γ_{2} (Z)

$\gamma_2(\mathbf{Z})$

Z_{i}

$Z_i$

E {δ_{i} ∣ Z_{i}}

$\text{E}\{\delta_i\mid Z_i\}$

Z_{i}

$Z_i$

\frac{d}{d z_{i}} m (z_{i})

$\frac{d}{dz_i}m(z_i)$

Z_{i}

$Z_i$

bayesian feature-selection bias unbiased-estimator conjugate-prior Chamberlain Foncha
źródło

Biorąc pod uwagę, że kierujesz roszczenie w literaturze, czy możesz podać pełną sytuację i odniesienie do strony, abyśmy mogli przeczytać pełny kontekst tego roszczenia.

Ben - Przywróć Monikę

Czy zdefiniowanie estymatora jako maksimum estymatorów Bayesa wciąż jest estymatorem Bayesa?

Xi'an

Przykład 1 w pracy.

Chamberlain Foncha

Odpowiedzi:

Jak opisano powyżej, kwestia dotyczy wnioskowania na podstawie indeksu i wartości (i⁰, μ⁰) największej średniej z próbki normalnych wartości Rv. Zaskakujące w prezentacji Dawida jest to, że analiza bayesowska nie brzmi tak bardzo jak bayesowska. W przypadku całej próby podejście bayesowskie powinno dawać rozkład boczny na (i⁰, μ⁰) zamiast postępować zgodnie z etapami szacowania, od oszacowania i⁰ do oszacowania powiązanej średniej. W razie potrzeby estymatory powinny pochodzić z definicji określonej funkcji straty. Kiedy zamiast tego, biorąc pod uwagę największy punkt w próbie i tylko ten punkt, zmienia się jego rozkład, więc jestem dość zaskoczony stwierdzeniem, że żadna korekta nie jest potrzebna.

Wcześniejsze modelowanie jest również dość zaskakujące, ponieważ priorytety w środkach powinny być raczej połączone niż produktem niezależnych normalnych, ponieważ środki te są porównywane, a zatem porównywalne. Na przykład hierarchiczny przełożony wydaje się bardziej odpowiedni, a lokalizację i skalę można oszacować na podstawie całych danych. Tworzenie powiązania między środkami ... Istotnym zastrzeżeniem wobec stosowania niezależnych niewłaściwych priorytetów jest to, że maksymalna średnia μ⁰ nie ma wtedy dokładnie określonej miary. Nie uważam jednak, by krytyka niektórych a priori w stosunku do innych była istotnym atakiem na ten „paradoks”.

Xi'an
źródło

Wydaje mi się, że cała potrzebna ochrona powinna zostać zakodowana w przeszłości, która łączy wszystkie nieznane środki. Jeśli wcześniejsze znacznie różnią się między środkami, jest to bardzo mało prawdopodobne, co zostanie odzwierciedlone w odcinku bocznym, czyniąc je doskonałym.

Frank Harrell,

(i, μ)

$(i,\mu)$

δ_{i} \sim N (a, 1)

$\delta_i \sim N(a,1)$

Z_{i} \sim N (δ_{i}, 1)

$Z_i\sim N(\delta_i,1)$

δ_{i}

$\delta_i$

Z_{i}

$Z_i$

δ_{i}

$\delta_i$

E (δ_{i} | Z_{i})

$E(\delta_i|Z_i)$

Z_{i^{0}}

$Z_{i^0}$

Z_{i}

$Z_i$

E (δ_{i^{0}} | Z_{i^{0}})

$E(\delta_{i^0}|Z_{i^0})$

Z_{i}

$Z_i$

E (δ_{i^{0}} | Z_{i^{0}})

$E(\delta_{i^0}|Z_{i^0})$

Z_{i^{0}}

$Z_{i^0}$

i^{0}

$i^0$

E [δ_{i} | Z_{i}]

$\mathbb{E}[\delta_i|Z_i]$

δ_{i}

$\delta_i$

i

$i$

μ_{i}

$\mu_i$

μ_{i}

$\mu_i$

$i^*=5$ $\mu_5$ $N(x_5,\sigma^2)$

Argumentacja bayesowska prowadziłaby do fałszywych wniosków, gdyby dla każdego takiego eksperymentu (wyobraź sobie, że powtórzysz go kilka razy), tylko wyniki dla najlepszej odmiany byłyby zachowane. Byłby wybór danych, a metody bayesowskie wyraźnie nie są odporne na (tajny) wybór danych. W rzeczywistości żadna metoda statystyczna nie jest odporna na selekcję danych.

Gdyby dokonano takiego wyboru, pełne rozumowanie bayesowskie, biorąc pod uwagę ten wybór, łatwo poprawiłoby złudzenie.

Jednak zdanie „estymator Bayesa jest odporny na uprzedzenia selekcyjne” jest nieco niebezpieczne. Łatwo jest wyobrazić sobie sytuacje, w których „wybór” oznacza coś innego, na przykład wybór zmiennych objaśniających lub wybór danych. Bayes nie jest na to wyraźnie odporny.

Benoit Sanchez
źródło