Czy mogę przetestować ważność wcześniej podanych danych?

10

Problem

Piszę funkcję R, która wykonuje analizę bayesowską w celu oszacowania gęstości tylnej, biorąc pod uwagę świadomy uprzedni i dane. Chciałbym, aby funkcja wysłała ostrzeżenie, jeśli użytkownik będzie musiał ponownie rozważyć wcześniejsze.

W tym pytaniu chcę dowiedzieć się, jak oceniać przeor. Poprzednie pytania dotyczyły mechaniki przedstawiania świadomych priorów ( tu i tutaj .)

Następujące przypadki mogą wymagać ponownej oceny wcześniejszego:

  • dane stanowią skrajny przypadek, który nie został uwzględniony przy stwierdzaniu wcześniejszego
  • błędy w danych (np. jeśli dane są w jednostkach g, gdy uprzednio jest w kg)
  • zły zbiór został wybrany z zestawu dostępnych priorów z powodu błędu w kodzie

W pierwszym przypadku priory są zwykle wystarczająco rozproszone, aby dane ogólnie je przytłoczyły, chyba że wartości danych leżą w nieobsługiwanym zakresie (np. <0 dla logN lub gamma). Pozostałe przypadki to błędy lub błędy.

pytania

  1. Czy są jakieś problemy dotyczące ważności wykorzystania danych do oceny wcześniejszej?
  2. czy jakikolwiek konkretny test najlepiej nadaje się do tego problemu?

Przykłady

Oto dwa zestawy danych, które wcześniej były słabo dopasowane do ponieważ pochodzą one z populacji z (czerwony) lub (niebieski).losolN.(0,1)N.(0,5)N.(8,0,5)

Niebieskie dane mogą być prawidłową kombinacją wcześniejszych danych + danych, podczas gdy czerwone dane wymagają wcześniejszego rozkładu obsługiwanego dla wartości ujemnych.

wprowadź opis zdjęcia tutaj

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')
David LeBauer
źródło

Odpowiedzi:

4

Musisz wyjaśnić, co rozumiesz przez „wcześniej”. Na przykład, jeśli interesuje Cię moje wcześniejsze przekonanie o oczekiwanej długości życia w Wielkiej Brytanii, to nie może się mylić. To moja wiara! Może to być niezgodne z obserwowanymi danymi, ale to zupełnie inna sprawa.

Również kontekst ma znaczenie. Załóżmy na przykład, że interesuje nas populacja czegoś. Wcześniejsze twierdzę, że ta ilość musi być ściśle nieujemna. Jednak dane zaobserwowano z błędem i mamy pomiary ujemne. W tym przypadku przeor nie jest nieważny, to po prostu przeor utajonego procesu.

Aby odpowiedzieć na twoje pytania,

  1. Czy są jakieś problemy dotyczące ważności wykorzystania danych do oceny wcześniejszej?

Purysta twierdzi, że nie powinieneś używać danych dwa razy. Jednak pragmatyczna osoba po prostu odparłaby, że nie pomyślałeś wystarczająco o przeorze.

2 Czy jakiś konkretny test najlepiej nadaje się do tego problemu?

To naprawdę zależy od rozważanego modelu. Przypuszczam, że w najbardziej podstawowym stopniu można było porównać wcześniejszy zakres z zakresem danych.

csgillespie
źródło
3

Oto moje dwa centy:

  1. Myślę, że powinieneś się martwić o wcześniejsze parametry związane ze stosunkami.

  2. Mówisz o informacyjnym przeorze, ale myślę, że powinieneś ostrzec użytkowników o tym, czym jest rozsądny nieinformacyjny przeor. Mam na myśli, że czasami normalna z zerową średnią i wariancją 100 jest dość nieinformacyjna, a czasem ma charakter informacyjny, w zależności od zastosowanych skal. Na przykład, jeśli regresujesz wynagrodzenie na wysokościach (centymetrach), to powyższe informacje są dość pouczające. Jeśli jednak regresujesz dziennik płac na wysokościach (metrach), to powyższy przeor nie jest tak pouczający.

  3. Jeśli korzystasz z uprzedniego, który jest wynikiem poprzedniej analizy, tj. Nowy uprzedni jest tak naprawdę starym posteriori z poprzedniej analizy, wtedy sprawy wyglądają inaczej. Zakładam, że tak jest w przypadku.

Manoel Galdino
źródło
czy mógłbyś wyjaśnić punkt 1? w odniesieniu do pkt 2, jak wspomniano w PO, nie interesuje mnie to pytanie, jak ustawić pierwszeństwo; do punktu 3: wielu poinformowanych przełożonych pochodzi z analizy dostępnych danych (dopasowanie odpowiedniego rozkładu do danych), podczas gdy inne opierają się na wiedzy eksperckiej (są one ogólnie mniej ograniczone).
David LeBauer
Załóżmy, że pasujesz do modelu takiego jak: y ~ a + b * x / z. Jeśli nie ma ograniczenia na wartości Z (jeśli mogą być dodatnie lub ujemne), trudno jest wiedzieć, czego oczekiwać od sygnału z b. Co więcej, jeśli Z może być bliskie zeru, to b może być za niskie lub za duże. Może to spowodować, że twoje wcześniejsze nieuzasadnione. Zobacz ten wpis na blogu Gelmana: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Manoel Galdino
# 3: Jak wskazano, należy zachować ostrożność przy korzystaniu z danych dwukrotnie. Na przykład cienki jest model hierarchiczny, a innym jest wybranie uprzedniego, który jest zgodny z prawdopodobieństwem. Później zajmę się taką analizą. Widzę wybór wcześniejszego bardziej jako narzędzia regularyzacji.
Manoel Galdino