Najlepsze podejście do wyboru modelu Bayesian czy walidacja krzyżowa?

22

Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia.

  1. Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu wykresu a liczba parametrów. Zwykle dostajesz coś takiego:wprowadź opis zdjęcia tutaj
  2. Oblicz prawdopodobieństwo modelu, całkując wartości parametrów. tj. oblicz i wykreśl to na podstawie liczby parametrów. Otrzymujemy wtedy coś takiego:θP.(re|θ)P.(θ)reθwprowadź opis zdjęcia tutaj

Więc moje pytania to:

  1. Czy te podejścia są odpowiednie do rozwiązania tego problemu (decydowanie, ile parametrów należy uwzględnić w modelu lub wybór spośród wielu modeli)?
  2. Czy są równoważne? Prawdopodobnie nie. Czy dadzą ten sam optymalny model przy pewnych założeniach lub w praktyce?
  3. Jakie są zalety i wady każdego podejścia, poza zwykłą filozoficzną różnicą określania wcześniejszej wiedzy w modelach bayesowskich itp.? Który wybrałbyś?

Aktualizacja: Znalazłem również powiązane pytanie dotyczące porównywania AIC i BIC. Wydaje się, że moja metoda 1 jest asymptotycznie równoważna AIC, a metoda 2 jest asymptotycznie powiązana z BIC. Ale przeczytałem tam również, że BIC jest odpowiednikiem CV Leave-One-Out. Oznaczałoby to, że minimum błędu szkolenia i maksimum prawdopodobieństwa Bayesa są równoważne, gdy LOO CV jest równoważne K-krotnie CV. Być może bardzo interesujący artykuł „ Teoria asymptotyczna wyboru modelu liniowego ” autorstwa Jun Shao dotyczy tych zagadnień.

wysoka przepustowość
źródło
Naprawdę nie mam pełnej odpowiedzi, ale wspomnę, że zwykle nie zastanawiałbym się nad użyciem żadnej z tych metod, aby „wybrać liczbę funkcji”. Zasadniczo interpretuję uczenie maszynowe i statystyki bayesowskie tak, aby uwzględniały wszystkie funkcje, ponieważ prawdopodobnie mają one minimalny wpływ. Myślę jednak, że kwestia względnej złożoności modelu jest nadal odpowiednia. Powiem też, że nigdy tak naprawdę nie przeprowadziłem wniosku Bayesowskiego, do którego nawiązujecie; wydaje się po prostu robić bałagan w praktyce w porównaniu z prostotą k-fold lub bootstrapowania.
Shea Parkes
Należy pamiętać, że papier Shao działa tylko w przypadku modeli liniowych; w rzeczywistości tylko ich prosta struktura sprawia, że ​​liczba funkcji może być użyta jako miara złożoności, a tym samym zasila wszystkie te kryteria informacyjne.
1
AIC ( nie BIC! ) Jest asymptotycznie równoważny z pominięciem walidacji krzyżowej przy słabych założeniach (ze względu na kamień „asymptotyczna równoważność wyboru modelu przez walidację krzyżową i kryterium Akaike” (1977) ). Źródło w pytaniu, do którego się odwołujesz, było niepoprawne i zostało poprawione przez Roba Hyndmana w komentarzu. Pomyślałem, że dobrym pomysłem może być również poprawienie go tutaj, aby przestał rozpowszechniać zły pomysł.
Richard Hardy

Odpowiedzi:

13
  1. Czy te podejścia są odpowiednie do rozwiązania tego problemu (decydowanie, ile parametrów należy uwzględnić w modelu lub wybór spośród wielu modeli)?

Każda z nich może być, tak. Jeśli chcesz uzyskać model, który najlepiej prognozuje, z listy modeli, które rozważasz, podejście dzielenia / sprawdzania poprawności może to zrobić dobrze. Jeśli interesuje Cię wiadomo, który z modeli (na liście modeli przypuszczalnych) jest w rzeczywistości tym, który generuje dane, to drugie podejście (ocena prawdopodobieństwa modeli z tyłu) jest tym, czego chcesz.

  1. Czy są równoważne? Prawdopodobnie nie. Czy dadzą ten sam optymalny model przy pewnych założeniach lub w praktyce?

Nie, ogólnie nie są równoważne. Na przykład użycie AIC (An Information Criterion, autorstwa Akaike) do wybrania „najlepszego” modelu odpowiada w przybliżeniu walidacji krzyżowej. Zastosowanie BIC (Bayesian Information Criterion) odpowiada zastosowaniu prawdopodobieństw tylnych, ponownie w przybliżeniu. Nie są to te same kryteria, więc ogólnie należy oczekiwać, że doprowadzą do różnych wyborów. Oni mogą dać te same odpowiedzi - gdy model, który prognozuje najlepszy okazuje się być prawdą - ale w wielu sytuacjach model, który najlepiej pasuje jest rzeczywiście taki, który overfits, co prowadzi do rozbieżności między podejściami.

Czy zgadzają się w praktyce? To zależy od tego, na czym polega twoja „praktyka”. Wypróbuj to na dwa sposoby i dowiedz się.

  1. Jakie są zalety i wady każdego podejścia, poza zwykłą filozoficzną różnicą określania wcześniejszej wiedzy w modelach bayesowskich itp.? Który byś wybrał?
  • Zazwyczaj obliczenia do walidacji krzyżowej są znacznie łatwiejsze niż obliczanie prawdopodobieństw późniejszych
  • Często trudno jest przekonać, że „prawdziwy” model znajduje się na liście, z której wybierasz. Jest to problem związany z wykorzystaniem prawdopodobieństw późniejszych, ale nie z walidacją krzyżową
  • Obie metody zwykle wymagają użycia dość arbitralnych stałych; ile warta jest dodatkowa jednostka prognozy pod względem liczby zmiennych? Jak bardzo wierzymy w każdy z modeli a priori ?
    • Prawdopodobnie wybrałbym cross-validation. Ale zanim zacznę, chciałbym dużo wiedzieć o tym, dlaczego dokonano wyboru modelu, tj. Do czego miał być wybrany wybrany model. Żadna forma wyboru modelu może nie być odpowiednia, jeśli np. Wymagane jest wnioskowanie przyczynowe.
Gość
źródło
16

Optymalizacja jest źródłem wszelkiego zła w statystykach! ; o)

Za każdym razem, gdy próbujesz wybrać model na podstawie kryterium, które jest oceniane na skończonej próbce danych, stwarzasz ryzyko przesadnego dopasowania kryterium wyboru modelu i kończysz się modelem gorszym niż na początku. Zarówno walidacja krzyżowa, jak i krańcowe prawdopodobieństwo są rozsądnymi kryteriami wyboru modelu, ale oba zależą od skończonej próbki danych (podobnie jak AIC i BIC - kara za złożoność może pomóc, ale nie rozwiązuje tego problemu). Przekonałem się, że jest to poważny problem w uczeniu maszynowym

GC Cawley i NLC Talbot, Nadmierne dopasowanie w wyborze modelu i późniejsze odchylenie wyboru w ocenie wydajności, Journal of Machine Learning Research, 2010. Research, vol. 11, s. 2079–2107, lipiec 2010 r. ( Www )

Z bayesowskiego punktu widzenia lepiej jest zintegrować wszystkie opcje i parametry modelu. Jeśli niczego nie zoptymalizujesz ani nie wybierzesz, trudniej będzie się go przeregulować. Minusem jest to, że kończysz się trudnymi całkami, które często wymagają rozwiązania za pomocą MCMC. Jeśli chcesz uzyskać najlepsze wyniki predykcyjne, sugerowałbym podejście w pełni bayesowskie; jeśli chcesz zrozumieć dane, często pomocny jest wybór najlepszego modelu. Jeśli jednak ponownie zaimportujesz dane i za każdym razem uzyskasz inny model, oznacza to, że procedura dopasowania jest niestabilna i żaden z modeli nie jest niezawodny do zrozumienia danych.

Należy zauważyć, że jedną ważną różnicą między walidacją krzyżową a dowodami jest to, że wartość krańcowego prawdopodobieństwa zakłada, że ​​model nie jest błędnie określony (zasadniczo podstawowa forma modelu jest odpowiednia) i może dawać mylące wyniki, jeśli tak jest. Walidacja krzyżowa nie zakłada takiego założenia, co oznacza, że ​​może być nieco bardziej niezawodna.

Dikran Torbacz
źródło
Integracja bayesowska jest silnym podejściem. Zawsze jednak pytaj, czy wybór modelu jest nawet właściwą drogą do tego. Jaka jest motywacja? Dlaczego nie postawić na kompletny, elastyczny model i po prostu go dopasować?
Frank Harrell
@FrankHarrell wiele elastycznych modeli obejmuje terminy regularyzacji i inne hiper-parametry, a ich dostrajanie jest również wyborem modelu i wiąże się z tymi samymi problemami nadmiernego dopasowania kryterium wyboru. Dopasowanie wprowadza ryzyko nadmiernego dopasowania, i dotyczy to wszystkich poziomów. Jeśli jednak wiesz a priori o strukturze modelu, należy skorzystać z tej wiedzy eksperckiej.
Dikran Marsupial
1
Najlepiej poszukać metody, która nie wymaga strojenia, ale nie zawsze jest to możliwe. Chodzi mi o to, że specyfikacja modelu działa lepiej niż wybór modelu i nie zakładam, że wybór funkcji jest szlachetnym celem.
Frank Harrell
Wybór funkcji @FrankHarrell jest bardzo rzadko pomocny. W miarę możliwości należy unikać optymalizacji, która obejmuje dokonywanie wyboru / strojenia modelu na podstawie skończonej próbki danych (oczywiście im większa próbka, tym mniejsze ryzyko).
Dikran Marsupial