Czy BIC próbuje znaleźć prawdziwy model?

17

To pytanie jest kontynuacją lub próbą wyjaśnienia możliwych nieporozumień dotyczących tematu, który ja i wiele innych osób uważam za nieco trudny, jeśli chodzi o różnicę między AIC i BIC. W bardzo ładnej odpowiedzi @Dave Kellen na ten temat ( /stats//a/767/30589 ) czytamy:

Twoje pytanie sugeruje, że AIC i BIC próbują odpowiedzieć na to samo pytanie, co nie jest prawdą. AIC próbuje wybrać model, który najlepiej opisuje nieznaną, wielowymiarową rzeczywistość. Oznacza to, że rzeczywistość nigdy nie znajduje się w zbiorze rozważanych modeli kandydujących. Przeciwnie, BIC próbuje znaleźć PRAWDZIWY model wśród zbioru kandydatów. Wydaje mi się dość dziwne założenie, że rzeczywistość jest tworzona w jednym z modeli zbudowanych po drodze przez naukowców. To jest prawdziwy problem dla BIC.

W komentarzu poniżej autorstwa @ gui11aume czytamy:

(-1) Świetne wyjaśnienie, ale chciałbym podważyć twierdzenie. @Dave Kellen Czy mógłbyś podać odniesienie do miejsca, w którym model TRUE musi znajdować się w zestawie do BIC? Chciałbym to zbadać, ponieważ w tej książce autorzy dają przekonujący dowód, że tak nie jest. - gui11aume 27 maja 2012 o 21:47

Wydaje się, że to twierdzenie pochodzi od samego Schwarza (1978), chociaż nie było to konieczne: przez tych samych autorów (jak linki do @ gui11aume), czytamy z ich artykułu „Wnioskowanie wielomodelowe: Zrozumienie AIC i BIC w wyborze modelu” ( Burnham and Anderson, 2004):

Czy wyprowadzenie BIC zakłada istnienie prawdziwego modelu, czy, mówiąc ściślej, czy zakłada się, że prawdziwy model znajduje się w zestawie modeli podczas korzystania z BIC? (Pochodna Schwarza określiła te warunki.) ... Odpowiedź ... nie. Oznacza to, że BIC (jako podstawa przybliżenia do pewnej całki bayesowskiej) można uzyskać bez zakładania, że ​​model leżący u podstaw wyprowadzenia jest prawdziwy (patrz np. Cavanaugh i Neath 1999; Burnham i Anderson 2002: 293-5). Z pewnością przy stosowaniu BIC zestaw modeli nie musi zawierać (nieistniejącego) prawdziwego modelu reprezentującego pełną rzeczywistość. Co więcej, zbieżność prawdopodobieństwa modelu wybranego przez BIC do modelu Targbet (w ramach idealizacji próbki iid) nie oznacza logicznie, że ten model docelowy musi być rzeczywistym rozkładem generującym dane).

Myślę więc, że warto przedyskutować lub wyjaśnić (jeśli potrzeba więcej) na ten temat. W tej chwili mamy tylko komentarz od @ gui11aume (dziękuję!) Pod bardzo wysoko głosowaną odpowiedzią dotyczącą różnicy między AIC i BIC.

Erosennin
źródło
1
Aby lepiej skupić się na pytaniu, AIC może być prawdopodobnie usunięte z tytułu, ponieważ, jeśli dobrze rozumiem, pytanie dotyczy tego, czy prawdziwy model musi znajdować się w zestawie kandydatów podczas korzystania z BIC.
Juho Kokkala,
@JuhoKokkala: Zgadzam się.
Erosennin
4
Dla mnie sedno jest takie, że w większości praktycznych zastosowań BIC powoduje niedopasowanie, a AIC dokładniej ocenia prawdopodobną wydajność modelu na nowych, niedostępnych danych. Ale niezależnie od tego, czy użyjesz AIC, czy BIC, jeśli wybierzesz spośród, powiedzmy, 3 konkurencyjnych modeli / zestawów funkcji, wynikowy model może się przewyższyć. AIC i BIC działają najlepiej, gdy liczba potencjalnych modeli jest niska lub modele są połączone niewielką liczbą parametrów (np. Kary).
Frank Harrell,
Dzięki @Erosennin za wykopanie referencji. Rozumiem teraz, skąd wziął się pomysł włączenia modelu PRAWDA.
gui11aume
@FrankHarrell: Czy możesz wyjaśnić, co rozumiesz przez „praktyczne zastosowania”? Jeśli dobrze rozumiem Burnhama i Andersona, wydaje się, że BIC spowoduje niedopasowanie, gdy danych jest mało. Kiedy mamy dużo danych, BIC faktycznie wybierze / wyszuka quasi-prawdziwy model bardziej złożony niż AIC. AIC i BIC mają różne „modele docelowe”. Chciałbym rozwinąć to, co mówisz, choćby po to, aby skierować mnie do jakiegoś artykułu / książki.
Erosennin

Odpowiedzi:

11

p(M1|y)p(M2|y)>1ASIC(M1)<SIC(M2)
Ap(Mj|y)jy . Nie rozumiem, w jaki sposób wynik ten zależałby od prawdziwości modelu 1 (czy istnieje nawet prawdziwy model w ramach Bayesa?).

IC(k)=2Tl(θ^;y)+kg(T)
, gdziel(θ^;y) to logarytmiczne prawdopodobieństwo oszacowania parametru θ^, k to liczba parametrów i T.to wielkość próbki. Kiedy wszechświat modelu składa się z modeli liniowych, Gaussa, można wykazać, że potrzebujemy:
sol(T.)0tak jak
aby IC nie wybrał modelu, który jest mniejszy niż prawdziwy model z prawdopodobieństwem jeden i
T.sol(T.)tak jak
aby IC nie wybrał modelu większego niż model rzeczywisty z prawdopodobieństwem. Mamy to
solZAjado(T.)=2)T.,solS.jado(T.)=lnT.T.
Tak więc SIC spełnia oba warunki, podczas gdy AIC spełnia pierwszy, ale nie drugi warunek. Aby uzyskać bardzo przystępną prezentację tych funkcji i omówienie praktycznych implikacji, zobacz rozdział 6 tej książki .

Elliott, G. i A. Timmermann (2016, kwiecień). Prognozy ekonomiczne. Princeton University Press.

Schwarz, Gideon. "Szacowanie wymiaru modelu." Roczniki statystyki 6.2 (1978): 461–464.

Matthias Schmidtblaicher
źródło