Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia.
- Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu wykresu a liczba parametrów. Zwykle dostajesz coś takiego:
- Oblicz prawdopodobieństwo modelu, całkując wartości parametrów. tj. oblicz i wykreśl to na podstawie liczby parametrów. Otrzymujemy wtedy coś takiego:
Więc moje pytania to:
- Czy te podejścia są odpowiednie do rozwiązania tego problemu (decydowanie, ile parametrów należy uwzględnić w modelu lub wybór spośród wielu modeli)?
- Czy są równoważne? Prawdopodobnie nie. Czy dadzą ten sam optymalny model przy pewnych założeniach lub w praktyce?
- Jakie są zalety i wady każdego podejścia, poza zwykłą filozoficzną różnicą określania wcześniejszej wiedzy w modelach bayesowskich itp.? Który wybrałbyś?
Aktualizacja: Znalazłem również powiązane pytanie dotyczące porównywania AIC i BIC. Wydaje się, że moja metoda 1 jest asymptotycznie równoważna AIC, a metoda 2 jest asymptotycznie powiązana z BIC. Ale przeczytałem tam również, że BIC jest odpowiednikiem CV Leave-One-Out. Oznaczałoby to, że minimum błędu szkolenia i maksimum prawdopodobieństwa Bayesa są równoważne, gdy LOO CV jest równoważne K-krotnie CV. Być może bardzo interesujący artykuł „ Teoria asymptotyczna wyboru modelu liniowego ” autorstwa Jun Shao dotyczy tych zagadnień.
bayesian
model-selection
cross-validation
feature-selection
wysoka przepustowość
źródło
źródło
Odpowiedzi:
Każda z nich może być, tak. Jeśli chcesz uzyskać model, który najlepiej prognozuje, z listy modeli, które rozważasz, podejście dzielenia / sprawdzania poprawności może to zrobić dobrze. Jeśli interesuje Cię wiadomo, który z modeli (na liście modeli przypuszczalnych) jest w rzeczywistości tym, który generuje dane, to drugie podejście (ocena prawdopodobieństwa modeli z tyłu) jest tym, czego chcesz.
Nie, ogólnie nie są równoważne. Na przykład użycie AIC (An Information Criterion, autorstwa Akaike) do wybrania „najlepszego” modelu odpowiada w przybliżeniu walidacji krzyżowej. Zastosowanie BIC (Bayesian Information Criterion) odpowiada zastosowaniu prawdopodobieństw tylnych, ponownie w przybliżeniu. Nie są to te same kryteria, więc ogólnie należy oczekiwać, że doprowadzą do różnych wyborów. Oni mogą dać te same odpowiedzi - gdy model, który prognozuje najlepszy okazuje się być prawdą - ale w wielu sytuacjach model, który najlepiej pasuje jest rzeczywiście taki, który overfits, co prowadzi do rozbieżności między podejściami.
Czy zgadzają się w praktyce? To zależy od tego, na czym polega twoja „praktyka”. Wypróbuj to na dwa sposoby i dowiedz się.
źródło
Optymalizacja jest źródłem wszelkiego zła w statystykach! ; o)
Za każdym razem, gdy próbujesz wybrać model na podstawie kryterium, które jest oceniane na skończonej próbce danych, stwarzasz ryzyko przesadnego dopasowania kryterium wyboru modelu i kończysz się modelem gorszym niż na początku. Zarówno walidacja krzyżowa, jak i krańcowe prawdopodobieństwo są rozsądnymi kryteriami wyboru modelu, ale oba zależą od skończonej próbki danych (podobnie jak AIC i BIC - kara za złożoność może pomóc, ale nie rozwiązuje tego problemu). Przekonałem się, że jest to poważny problem w uczeniu maszynowym
Z bayesowskiego punktu widzenia lepiej jest zintegrować wszystkie opcje i parametry modelu. Jeśli niczego nie zoptymalizujesz ani nie wybierzesz, trudniej będzie się go przeregulować. Minusem jest to, że kończysz się trudnymi całkami, które często wymagają rozwiązania za pomocą MCMC. Jeśli chcesz uzyskać najlepsze wyniki predykcyjne, sugerowałbym podejście w pełni bayesowskie; jeśli chcesz zrozumieć dane, często pomocny jest wybór najlepszego modelu. Jeśli jednak ponownie zaimportujesz dane i za każdym razem uzyskasz inny model, oznacza to, że procedura dopasowania jest niestabilna i żaden z modeli nie jest niezawodny do zrozumienia danych.
Należy zauważyć, że jedną ważną różnicą między walidacją krzyżową a dowodami jest to, że wartość krańcowego prawdopodobieństwa zakłada, że model nie jest błędnie określony (zasadniczo podstawowa forma modelu jest odpowiednia) i może dawać mylące wyniki, jeśli tak jest. Walidacja krzyżowa nie zakłada takiego założenia, co oznacza, że może być nieco bardziej niezawodna.
źródło