Czy estymatory Bayesa są odporne na stronniczość selekcji?
Większość artykułów omawiających oszacowanie w dużym wymiarze, np. Dane o sekwencji całego genomu, często porusza kwestię błędu selekcji. Błąd selekcji wynika z faktu, że chociaż mamy tysiące potencjalnych predyktorów, tylko kilka zostanie wybranych, a wnioskowanie zostanie przeprowadzone na wybranych. Proces przebiega zatem w dwóch etapach: (1) wybierz podzbiór predyktorów (2) wykonaj wnioskowanie na wybranych zestawach, np. Oszacuj iloraz szans. Dawid w swoim paradoksalnym artykule z 1994 r. Skupił się na obiektywnych estymatorach i estymatorach Bayesa. Upraszcza problem wyboru największego efektu, który może być efektem leczenia. Następnie mówi, że na obiektywne estymatory wpływa uprzedzenie selekcyjne. Użył przykładu: załóżmy, że a następnie każde Z i jest bezstronne dla δ i . Niech Z = ( Z 1 , Z 2 , … , Z N ) T , estymator γ 1 ( Z ) = max { Z 1 , Z 2 , … , Z N } jest jednak tendencyjny (pozytywnie) dla max { δ 1 ,
źródło
Odpowiedzi:
Jak opisano powyżej, kwestia dotyczy wnioskowania na podstawie indeksu i wartości (i⁰, μ⁰) największej średniej z próbki normalnych wartości Rv. Zaskakujące w prezentacji Dawida jest to, że analiza bayesowska nie brzmi tak bardzo jak bayesowska. W przypadku całej próby podejście bayesowskie powinno dawać rozkład boczny na (i⁰, μ⁰) zamiast postępować zgodnie z etapami szacowania, od oszacowania i⁰ do oszacowania powiązanej średniej. W razie potrzeby estymatory powinny pochodzić z definicji określonej funkcji straty. Kiedy zamiast tego, biorąc pod uwagę największy punkt w próbie i tylko ten punkt, zmienia się jego rozkład, więc jestem dość zaskoczony stwierdzeniem, że żadna korekta nie jest potrzebna.
Wcześniejsze modelowanie jest również dość zaskakujące, ponieważ priorytety w środkach powinny być raczej połączone niż produktem niezależnych normalnych, ponieważ środki te są porównywane, a zatem porównywalne. Na przykład hierarchiczny przełożony wydaje się bardziej odpowiedni, a lokalizację i skalę można oszacować na podstawie całych danych. Tworzenie powiązania między środkami ... Istotnym zastrzeżeniem wobec stosowania niezależnych niewłaściwych priorytetów jest to, że maksymalna średnia μ⁰ nie ma wtedy dokładnie określonej miary. Nie uważam jednak, by krytyka niektórych a priori w stosunku do innych była istotnym atakiem na ten „paradoks”.
źródło
Argumentacja bayesowska prowadziłaby do fałszywych wniosków, gdyby dla każdego takiego eksperymentu (wyobraź sobie, że powtórzysz go kilka razy), tylko wyniki dla najlepszej odmiany byłyby zachowane. Byłby wybór danych, a metody bayesowskie wyraźnie nie są odporne na (tajny) wybór danych. W rzeczywistości żadna metoda statystyczna nie jest odporna na selekcję danych.
Gdyby dokonano takiego wyboru, pełne rozumowanie bayesowskie, biorąc pod uwagę ten wybór, łatwo poprawiłoby złudzenie.
Jednak zdanie „estymator Bayesa jest odporny na uprzedzenia selekcyjne” jest nieco niebezpieczne. Łatwo jest wyobrazić sobie sytuacje, w których „wybór” oznacza coś innego, na przykład wybór zmiennych objaśniających lub wybór danych. Bayes nie jest na to wyraźnie odporny.
źródło