Estymator Bayesa jest odporny na uprzedzenia selekcyjne

11

Czy estymatory Bayesa są odporne na stronniczość selekcji?

Większość artykułów omawiających oszacowanie w dużym wymiarze, np. Dane o sekwencji całego genomu, często porusza kwestię błędu selekcji. Błąd selekcji wynika z faktu, że chociaż mamy tysiące potencjalnych predyktorów, tylko kilka zostanie wybranych, a wnioskowanie zostanie przeprowadzone na wybranych. Proces przebiega zatem w dwóch etapach: (1) wybierz podzbiór predyktorów (2) wykonaj wnioskowanie na wybranych zestawach, np. Oszacuj iloraz szans. Dawid w swoim paradoksalnym artykule z 1994 r. Skupił się na obiektywnych estymatorach i estymatorach Bayesa. Upraszcza problem wyboru największego efektu, który może być efektem leczenia. Następnie mówi, że na obiektywne estymatory wpływa uprzedzenie selekcyjne. Użył przykładu: załóżmy, że a następnie każde Z i jest bezstronne dla δ i . Niech Z = ( Z 1 , Z 2 , , Z N ) T , estymator γ 1 ( Z ) = max { Z 1 , Z 2 , , Z N } jest jednak tendencyjny (pozytywnie) dla max { δ 1 ,

ZiN(δi,1),i=1,,N
ZiδiZ=(Z1,Z2,,ZN)T
γ1(Z)=max{Z1,Z2,,ZN}
. To stwierdzenie można łatwo udowodnić za pomocą nierówności Jensena. Dlatego jeśli znamy i max , indeks największego δ i , użyjemy Z i max jako estymatora, który jest bezstronny. Ale ponieważ tego nie wiemy,zamiasttego używamy γ 1 ( Z ), co staje się stronnicze (pozytywnie).max{δ1,δ2,,δN}imaxδiZimaxγ1(Z)

wprowadź opis zdjęcia tutaj

δiδig(.)δi

E{δiZi}=zi+ddzim(zi)
m(zi)=φ(ziδi)g(δi)dδiφ(.)

δimax

γ2(Z)=max{E{δ1Z1},E{δ2Z2},,E{δNZN}},
iδimaxγ1(Z)iγ2(Z)γ2(Z)ZiE{δiZi}Ziddzim(zi)Zi
Chamberlain Foncha
źródło
1
Biorąc pod uwagę, że kierujesz roszczenie w literaturze, czy możesz podać pełną sytuację i odniesienie do strony, abyśmy mogli przeczytać pełny kontekst tego roszczenia.
Ben - Przywróć Monikę
Czy zdefiniowanie estymatora jako maksimum estymatorów Bayesa wciąż jest estymatorem Bayesa?
Xi'an
Przykład 1 w pracy.
Chamberlain Foncha

Odpowiedzi:

4

Jak opisano powyżej, kwestia dotyczy wnioskowania na podstawie indeksu i wartości (i⁰, μ⁰) największej średniej z próbki normalnych wartości Rv. Zaskakujące w prezentacji Dawida jest to, że analiza bayesowska nie brzmi tak bardzo jak bayesowska. W przypadku całej próby podejście bayesowskie powinno dawać rozkład boczny na (i⁰, μ⁰) zamiast postępować zgodnie z etapami szacowania, od oszacowania i⁰ do oszacowania powiązanej średniej. W razie potrzeby estymatory powinny pochodzić z definicji określonej funkcji straty. Kiedy zamiast tego, biorąc pod uwagę największy punkt w próbie i tylko ten punkt, zmienia się jego rozkład, więc jestem dość zaskoczony stwierdzeniem, że żadna korekta nie jest potrzebna.

Wcześniejsze modelowanie jest również dość zaskakujące, ponieważ priorytety w środkach powinny być raczej połączone niż produktem niezależnych normalnych, ponieważ środki te są porównywane, a zatem porównywalne. Na przykład hierarchiczny przełożony wydaje się bardziej odpowiedni, a lokalizację i skalę można oszacować na podstawie całych danych. Tworzenie powiązania między środkami ... Istotnym zastrzeżeniem wobec stosowania niezależnych niewłaściwych priorytetów jest to, że maksymalna średnia μ⁰ nie ma wtedy dokładnie określonej miary. Nie uważam jednak, by krytyka niektórych a priori w stosunku do innych była istotnym atakiem na ten „paradoks”.

Xi'an
źródło
1
Wydaje mi się, że cała potrzebna ochrona powinna zostać zakodowana w przeszłości, która łączy wszystkie nieznane środki. Jeśli wcześniejsze znacznie różnią się między środkami, jest to bardzo mało prawdopodobne, co zostanie odzwierciedlone w odcinku bocznym, czyniąc je doskonałym.
Frank Harrell,
(i,μ)
δiN(a,1)ZiN(δi,1)δiZiδiE(δi|Zi)Zi0ZiE(δi0|Zi0)ZiE(δi0|Zi0)Zi0i0
E[δi|Zi]δiiμi
μi
1

i=5μ5N(x5,σ2)

Argumentacja bayesowska prowadziłaby do fałszywych wniosków, gdyby dla każdego takiego eksperymentu (wyobraź sobie, że powtórzysz go kilka razy), tylko wyniki dla najlepszej odmiany byłyby zachowane. Byłby wybór danych, a metody bayesowskie wyraźnie nie są odporne na (tajny) wybór danych. W rzeczywistości żadna metoda statystyczna nie jest odporna na selekcję danych.

Gdyby dokonano takiego wyboru, pełne rozumowanie bayesowskie, biorąc pod uwagę ten wybór, łatwo poprawiłoby złudzenie.

Jednak zdanie „estymator Bayesa jest odporny na uprzedzenia selekcyjne” jest nieco niebezpieczne. Łatwo jest wyobrazić sobie sytuacje, w których „wybór” oznacza coś innego, na przykład wybór zmiennych objaśniających lub wybór danych. Bayes nie jest na to wyraźnie odporny.

Benoit Sanchez
źródło