Właśnie skończyłem czytać świetną książkę Wprowadzenie do Empirical Bayes . Myślałem, że książka jest świetna, ale budowanie priorów z danych wydawało się złe. Zostałem przeszkolony, że opracowujesz plan analizy, następnie gromadzisz dane, a następnie testujesz hipotezę, którą wcześniej określiłeś w swoim planie analizy. Kiedy przeprowadzasz analizę danych, które już zostały zebrane, prowadzi to do wnioskowania po selekcji, w którym musisz być bardziej rygorystyczny w tym, co nazywasz „znaczącym”, zobacz tutaj . Myślę, że uczenie maszynowe ma coś analogicznego, co nazywa się „wybieraniem czereśniowym”, co oznacza wybieranie predyktorów przed skonfigurowaniem zestawów testowych i szkoleniowych ( Wprowadzenie do uczenia statystycznego ).
Biorąc pod uwagę to, czego się wcześniej nauczyłem, wydaje mi się, że empiryczny Bayes opiera się na słabych podstawach. Czy ludzie używają go tylko w ustawieniach, w których dane były generowane pasywnie? Jeśli tak, może to być uzasadnione, ale nie wydaje się poprawne stosowanie go podczas wykonywania rygorystycznego projektu eksperymentalnego, ale wiem, że Brad Efron używa empirycznych Bayesa specjalnie dla Biostatystyki, ogólnie bardzo w dziedzinie NHST.
Moje pytania to:
- Jak ważny jest empiryczny Bayes?
- W jakich sytuacjach jest używany?
- W jakich sytuacjach należy unikać stosowania empirycznego podejścia Bayesa i dlaczego?
- Czy ludzie używają go w dziedzinach innych niż biostatystyka, a jeśli tak, to w jakich sytuacjach go używają?
Odpowiedzi:
Myślę, że ważne jest, aby pamiętać, że różne metody są dobre dla różnych rzeczy, a testowanie istotności to nie wszystko, co istnieje w świecie statystyki.
1 i 3) EB prawdopodobnie nie jest prawidłową procedurą testowania hipotez, ale też nie jest.
Ważność może być wiele rzeczy, ale mówisz o Rygorystycznym Projekcie Eksperymentalnym, więc prawdopodobnie omawiamy test hipotez, który powinien pomóc ci podjąć właściwą decyzję z określoną częstotliwością długoterminową. Jest to ściśle dychotomiczny reżim typu tak / nie, który jest najbardziej użyteczny dla osób, które muszą podjąć decyzję typu tak / nie. Bardzo mądrzy ludzie wykonują wiele klasycznych prac. Te metody mają niezłą teoretyczną poprawność w granicach, zakładając, że wszystkie twoje założenia są spełnione, i c. Jednak EB z pewnością nie był do tego przeznaczony. Jeśli chcesz maszynerię klasycznych metod NHST, trzymaj się klasycznych metod NHST.
2) EB najlepiej stosować w problemach, w których szacuje się wiele podobnych, zmiennych wielkości.
Sam Efron otwiera swoją książkę Wnioskowanie na dużą skalę, wymieniając trzy różne epoki historii statystyki, wskazując, że obecnie jesteśmy w
On kontynuuje:
Być może najbardziej udany niedawne stosowanie EB jest
limma
, dostępny na BioConductor . Jest to pakiet R z metodami oceny różnicowej ekspresji (tj. Mikromacierzy) między dwiema badanymi grupami w dziesiątkach tysięcy genów. Smyth pokazuje, że ich metody EB dają statystykę t o większym stopniu swobody niż gdybyś miał obliczyć zwykłe statystyki t genów. Zastosowanie EB tutaj „jest równoważne zmniejszeniu szacowanych odchyleń próbki w kierunku zbiorczego oszacowania, co prowadzi do znacznie bardziej stabilnego wnioskowania, gdy liczba tablic jest mała”, co często ma miejsce.Jak wskazuje Efron powyżej, nie jest to coś, do czego został opracowany klasyczny NHST, a ustawienie jest zwykle bardziej eksploracyjne niż potwierdzające.
4) Zasadniczo można postrzegać EB jako metodę skurczu i może być przydatna wszędzie tam, gdzie skurcz jest przydatny
PowyższyX1, . . . , Xk θ^jotS.ja= ( 1 - c / S2)) Xja, S.2)= ∑kj = 1Xjot, do Xja
limma
przykład wspomina o kurczeniu się. Charles Stein dał nam zadziwiający wynik, że przy szacowaniu średnich dla trzech lub więcej rzeczy, istnieje estymator, który jest lepszy niż stosowanie obserwowanych średnich, . Estymator Jamesa-Steina ma postać przy czym a jest stałą. Ten estymator zmniejsza obserwowane średnie w kierunku zera, i jest lepszy niż stosowanie w silnym sensie jednakowo niższego ryzyka.Efron i Morris wykazali podobny wynik kurczenia się w kierunku połączonej średniej i takie właśnie są oceny szacunkowe EB. Poniżej znajduje się przykład, w którym zmniejszyłem wskaźniki przestępczości w różnych miastach metodami EB. Jak widać, bardziej ekstremalne szacunki kurczą się w sporej odległości od średniej. Mniejsze miasta, w których możemy spodziewać się większej wariancji, otrzymują większy skurcz. Czarny punkt reprezentuje duże miasto, które zasadniczo nie uległo skurczowi. Mam kilka symulacji, które pokazują, że te szacunki rzeczywiście mają mniejsze ryzyko niż wykorzystanie zaobserwowanych wskaźników przestępczości MLE.X¯,
Im bardziej podobne ilości zostaną oszacowane, tym bardziej prawdopodobne jest, że skurcz jest przydatny. Książka, do której się odwołujesz, używa wskaźników trafień w baseballu. Morris (1983) wskazuje na kilka innych aplikacji:
Są to wszystkie problemy z estymacją równoległą i, o ile wiem, chodzi raczej o dobre przewidywanie, co jest pewną ilością, niż o znalezienie decyzji tak / nie.
Niektóre referencje
źródło