Paradoks w wyborze modelu (AIC, BIC, aby wyjaśnić lub przewidzieć?)

18

Po przeczytaniu książki Galit Shmueli „Wyjaśnić lub przewidzieć” (2010) zastanawia mnie pozorna sprzeczność. Istnieją trzy przesłanki,

  1. AIC - wybór modelu na podstawie BIC (koniec str. 300 - początek str. 301): po prostu, AIC powinien być używany do wybierania modelu przeznaczonego do przewidywania, podczas gdy BIC powinien być używany do wybierania modelu do wyjaśnienia . Dodatkowo (nie w powyższej pracy) wiemy, że pod pewnymi warunkami BIC wybiera prawdziwy model spośród zestawu modeli kandydujących; prawdziwym modelem jest to, czego szukamy w modelowaniu objaśniającym (koniec str. 293).
  2. Prosta arytmetyka: AIC wybierze większy model niż BIC dla próbek o rozmiarze 8 lub większym (spełniające powodu różnych kar za złożoność w AIC w porównaniu do BIC).ln(n)>2)
  3. Model „prawdziwy” (tj. Model z prawidłowymi regresorami i prawidłową formą funkcjonalną, ale niedokładnie oszacowanymi współczynnikami) może nie być najlepszym modelem do prognozowania (s. 307): model regresji z brakującym predyktorem może być lepszym modelem prognostycznym - wprowadzenie błędu systematycznego z powodu brakującego predyktora może być przeważone przez zmniejszenie wariancji z powodu niedokładności oszacowania.

Punkty 1. i 2. sugerują, że większe modele mogą być lepsze do przewidywania niż modele bardziej oszczędne. Tymczasem punkt 3. podaje odwrotny przykład, w którym model bardziej oszczędny jest lepszy do przewidywania niż model większy. Uważam to za zagadkowe.

Pytania:

  1. Jak pozorna sprzeczność między punktami {1. oraz 2.} i 3. zostać wyjaśnione / rozwiązane?
  2. W świetle punktu 3., czy mógłbyś podać intuicyjne wyjaśnienie, dlaczego i jak większy model wybrany przez AIC jest rzeczywiście lepszy do przewidywania niż bardziej oszczędny model wybrany przez BIC?
Richard Hardy
źródło
2
Nie dostaję paradoksu / sprzeczności. AIC jest wydajny (asymptotycznie minimalizuje oczekiwany błąd prognozowania), a BIC jest spójny (asymptotycznie wybiera prawdziwą kolejność). Punkt 3) mówi, że odchylenie może być przeważone przez wariancję. Nie ma oczywiście gwarancji, że jedno jest lepsze od drugiego w określonej próbce. Twój „paradoks” wydaje się więc taki, że dla danej próbki AIC może nie być najlepszy do przewidywania, co nie jest zaskoczeniem. Dla twojego Q2: jeśli wzrost odchylenia wywołany mniejszym modelem BIC jest większy niż wzrost wariancji w większym AIC, AIC jest lepszy.
hejseb
2
Sugerowałbym, abyś spojrzał na pierwsze rozdziały w „Wybór modelu i uśrednianie modelu” Nilsa Hjorta i Gerdy Claeskens, może to wszystko wyjaśni.
hejseb

Odpowiedzi:

1

Nie należy ich brać w tym samym kontekście; punkty 1 i 2 mają różne konteksty. Zarówno w przypadku AIC, jak i BIC, najpierw sprawdza się, która kombinacja parametrów, w których liczbie daje najlepsze wskaźniki (niektórzy autorzy mają napady padaczkowe, gdy używam indeksu słóww tym kontekście. Zignoruj ​​je lub wyszukaj indeks w słowniku.) W punkcie 2 AIC jest bogatszym modelem, w którym bogatszy oznacza wybór modeli z większą liczbą parametrów, tylko czasami, ponieważ często optymalny model AIC ma taką samą liczbę parametrów modelu jak BIC wybór. To znaczy, jeśli AIC i BIC wybiorą modele posiadające SAMĄ liczbę parametrów, wówczas twierdzenie jest takie, że AIC będzie lepszy do przewidywania niż BIC. Jednak sytuacja odwrotna może wystąpić, jeśli BIC osiągnie maksimum przy wybranym mniejszym modelu parametrów (ale bez gwarancji). Sober (2002) stwierdził, że AIC mierzy dokładność predykcyjną, podczas gdy BIC mierzy dobroć dopasowania, gdzie dokładność predykcyjna może oznaczać przewidywanie y poza skrajnym zakresem wartości x. Na zewnątrz często mniej optymalny AIC z obniżonymi słabo przewidywalnymi parametrami lepiej przewidzi ekstrapolowane wartości niż optymalny indeks AIC na podstawie większej liczby parametrów w wybranym modelu. Pragnę zauważyć, że AIC i ML nie eliminują potrzeby testowania błędów ekstrapolacji, który jest osobnym testem dla modeli. Można tego dokonać przez ukrywanie ekstremalnych wartości ze zbioru „treningu” i obliczenie błędu między ekstrapolowanym modelem „treningu” a danymi ukrytymi.

fa(x)-yreszty (pomyśl o większej liczbie ujemnych reszt z jednej strony i większej ilości dodatnich reszt z drugiej), zmniejszając w ten sposób całkowity błąd. Tak więc w tym przypadku prosimy o najlepszą wartość y, biorąc pod uwagę wartość x, a dla AIC dokładniej pytamy o najlepszą funkcjonalną zależność między xiy. Jedną różnicą między nimi jest na przykład to, że BIC, przy innych parametrach równych, będzie miał lepszy współczynnik korelacji między modelem a danymi, a AIC będzie miał lepszy błąd ekstrapolacji mierzony jako błąd wartości y dla danej ekstrapolowanej wartości x.

Punkt 3 jest czasami stwierdzeniem pod pewnymi warunkami

  • σ


  • β2)

  • gdy predyktory są wysoce skorelowane; i

  • gdy wielkość próby jest mała lub zakres pominiętych zmiennych jest mały.

2)2)2)2)

Spieszę wskazać, że stwierdzenia te są optymistyczne. Zazwyczaj modele są błędne i często lepszy model wymusza normę, której nie można stosować z AIC lub BIC, lub zakłada się niewłaściwą strukturę resztkową do ich zastosowania i potrzebne są alternatywne środki. W mojej pracy tak jest zawsze.

Carl
źródło
1
Nie jestem pewien, czy odpowiadasz na pytania. Zdaję sobie sprawę z ogólnych ograniczeń kryteriów informacyjnych, ale nie o to pytam. Co więcej, nie rozumiem, o co ci chodzi, jeśli AIC i BIC mają taką samą liczbę parametrów, to twierdzenie jest takie, że AIC będzie lepszy do przewidywania niż BIC . Gdy modele alternatywne mają tę samą liczbę parametrów, porównanie AIC i BIC sprowadza się do porównania prawdopodobieństw, a zarówno AIC, jak i BIC wybiorą tę samą alternatywę. Czy mógłbyś również opracować, co masz na myśli, mówiąc o lepszym modelu, wprowadzi normę, której nie można stosować z AIC lub BIC ?
Richard Hardy,
Ciąg dalszy: Dopóki mamy prawdopodobieństwo i stopnie swobody, możemy obliczyć AIC i BIC.
Richard Hardy,
@RichardHardy Prawda: Tak długo, jak istnieje prawdopodobieństwo i stopnie swobody, możemy obliczyć AIC i BIC. Jednak obliczenia będą nieoptymalne i wprowadzą w błąd, jeżeli reszty są testami T-Studenta, a my nie wykorzystaliśmy AIC i BIC dla Studenta-T. W przeciwieństwie do Studenta-T istnieją rozkłady reszt, dla których ML może nie zostać opublikowany, na przykład Gamma, Beta itp.
Carl
Dziękuję za wyjaśnienie! Uważam, że odpowiedź na powyższe pytania powinna być dość prosta i ogólna. Mówiąc dokładniej, nie sądzę, że musi to obejmować „brzydkie” przypadki i awarie AIC i BIC. Przeciwnie, uważam, że powinien istnieć raczej podstawowy przypadek, który mógłby zilustrować, dlaczego paradoks jest raczej pozorny niż rzeczywisty. W tym samym czasie drugi akapit wydaje się zmierzać w przeciwnym kierunku. Nie dlatego, że nie byłoby to samo w sobie cenne, ale obawiam się, że mogłoby to odciągnąć nas od prawdziwych pytań leżących u podstaw.
Richard Hardy,
@RichardHardy Często praktyczne pytanie jest trudne do AIC. Na przykład porównanie tych samych lub różnych modeli z różnymi normami i / lub transformacjami danych lub analiza skomplikowanych norm, np. Zmniejszenie błędu regularyzacji Tichonowa pochodnego parametru, ogólne odwrotności itp. Należy o tym wspomnieć, aby nikt nie używał AIC , BIC niepoprawnie.
Carl