Po przeczytaniu książki Galit Shmueli „Wyjaśnić lub przewidzieć” (2010) zastanawia mnie pozorna sprzeczność. Istnieją trzy przesłanki,
- AIC - wybór modelu na podstawie BIC (koniec str. 300 - początek str. 301): po prostu, AIC powinien być używany do wybierania modelu przeznaczonego do przewidywania, podczas gdy BIC powinien być używany do wybierania modelu do wyjaśnienia . Dodatkowo (nie w powyższej pracy) wiemy, że pod pewnymi warunkami BIC wybiera prawdziwy model spośród zestawu modeli kandydujących; prawdziwym modelem jest to, czego szukamy w modelowaniu objaśniającym (koniec str. 293).
- Prosta arytmetyka: AIC wybierze większy model niż BIC dla próbek o rozmiarze 8 lub większym (spełniające powodu różnych kar za złożoność w AIC w porównaniu do BIC).
- Model „prawdziwy” (tj. Model z prawidłowymi regresorami i prawidłową formą funkcjonalną, ale niedokładnie oszacowanymi współczynnikami) może nie być najlepszym modelem do prognozowania (s. 307): model regresji z brakującym predyktorem może być lepszym modelem prognostycznym - wprowadzenie błędu systematycznego z powodu brakującego predyktora może być przeważone przez zmniejszenie wariancji z powodu niedokładności oszacowania.
Punkty 1. i 2. sugerują, że większe modele mogą być lepsze do przewidywania niż modele bardziej oszczędne. Tymczasem punkt 3. podaje odwrotny przykład, w którym model bardziej oszczędny jest lepszy do przewidywania niż model większy. Uważam to za zagadkowe.
Pytania:
- Jak pozorna sprzeczność między punktami {1. oraz 2.} i 3. zostać wyjaśnione / rozwiązane?
- W świetle punktu 3., czy mógłbyś podać intuicyjne wyjaśnienie, dlaczego i jak większy model wybrany przez AIC jest rzeczywiście lepszy do przewidywania niż bardziej oszczędny model wybrany przez BIC?
forecasting
model-selection
feature-selection
aic
bic
Richard Hardy
źródło
źródło
Odpowiedzi:
Nie należy ich brać w tym samym kontekście; punkty 1 i 2 mają różne konteksty. Zarówno w przypadku AIC, jak i BIC, najpierw sprawdza się, która kombinacja parametrów, w których liczbie daje najlepsze wskaźniki (niektórzy autorzy mają napady padaczkowe, gdy używam indeksu słóww tym kontekście. Zignoruj je lub wyszukaj indeks w słowniku.) W punkcie 2 AIC jest bogatszym modelem, w którym bogatszy oznacza wybór modeli z większą liczbą parametrów, tylko czasami, ponieważ często optymalny model AIC ma taką samą liczbę parametrów modelu jak BIC wybór. To znaczy, jeśli AIC i BIC wybiorą modele posiadające SAMĄ liczbę parametrów, wówczas twierdzenie jest takie, że AIC będzie lepszy do przewidywania niż BIC. Jednak sytuacja odwrotna może wystąpić, jeśli BIC osiągnie maksimum przy wybranym mniejszym modelu parametrów (ale bez gwarancji). Sober (2002) stwierdził, że AIC mierzy dokładność predykcyjną, podczas gdy BIC mierzy dobroć dopasowania, gdzie dokładność predykcyjna może oznaczać przewidywanie y poza skrajnym zakresem wartości x. Na zewnątrz często mniej optymalny AIC z obniżonymi słabo przewidywalnymi parametrami lepiej przewidzi ekstrapolowane wartości niż optymalny indeks AIC na podstawie większej liczby parametrów w wybranym modelu. Pragnę zauważyć, że AIC i ML nie eliminują potrzeby testowania błędów ekstrapolacji, który jest osobnym testem dla modeli. Można tego dokonać przez ukrywanie ekstremalnych wartości ze zbioru „treningu” i obliczenie błędu między ekstrapolowanym modelem „treningu” a danymi ukrytymi.
Punkt 3 jest czasami stwierdzeniem pod pewnymi warunkami
gdy predyktory są wysoce skorelowane; i
gdy wielkość próby jest mała lub zakres pominiętych zmiennych jest mały.
Spieszę wskazać, że stwierdzenia te są optymistyczne. Zazwyczaj modele są błędne i często lepszy model wymusza normę, której nie można stosować z AIC lub BIC, lub zakłada się niewłaściwą strukturę resztkową do ich zastosowania i potrzebne są alternatywne środki. W mojej pracy tak jest zawsze.
źródło