Jakie są teoretyczne gwarancje workowania

17

(W przybliżeniu) słyszałem, że:

workowanie jest techniką zmniejszania wariancji predyktora / estymatora / algorytmu uczenia się.

Jednak nigdy nie widziałem formalnego matematycznego dowodu tego stwierdzenia. Czy ktoś wie, dlaczego jest to prawdą matematyczną? Wydaje się, że jest to tak powszechnie akceptowany / znany fakt, że spodziewałbym się bezpośredniego odniesienia do tego. Byłbym zaskoczony, gdyby nie było. Ponadto, czy ktoś wie, jaki to ma wpływ na stronniczość?

Czy są jakieś inne teoretyczne gwarancje podejść do workowania, o których każdy wie i uważa, że ​​jest ważny i chce się nim podzielić?

Charlie Parker
źródło

Odpowiedzi:

21

Głównym przypadkiem użycia do pakowania w worki jest zmniejszenie wariancji modeli o niskim obciążeniu przez połączenie ich w całość. Zostało to zbadane empirycznie w przełomowym artykule Empiryczne porównanie algorytmów klasyfikacji głosowania: tworzenie worków, wzmocnienie i warianty ” autorstwa Bauer i Kohavi . Zwykle działa zgodnie z reklamą.

Jednak, wbrew powszechnemu przekonaniu, nie można zagwarantować zmniejszenia wariancji poprzez pakowanie . Nowszym i (moim zdaniem) lepszym wytłumaczeniem jest to, że workowanie zmniejsza wpływ punktów dźwigni. Punkty dźwigni to takie, które nieproporcjonalnie wpływają na wynikowy model, takie jak wartości odstające w regresji metodą najmniejszych kwadratów. Rzadko zdarza się, że punkty dźwigni mogą pozytywnie wpływać na powstałe modele, w którym to przypadku workowanie zmniejsza wydajność. Spójrz na Bagging wyrównuje wpływ ” Grandvaleta .

Tak więc, aby w końcu odpowiedzieć na twoje pytanie: efekt workowania zależy w dużej mierze od punktów dźwigni. Istnieje niewiele gwarancji teoretycznych, z wyjątkiem tego, że pakowanie liniowo wydłuża czas obliczeń pod względem wielkości torby! To powiedziawszy, jest to wciąż powszechnie stosowana i bardzo potężna technika. Na przykład przy uczeniu się z hałasem etykiet, w workach można uzyskać bardziej niezawodne klasyfikatory .

Rao i Tibshirani podali interpretację bayesowską w Metodzie out-of-bootstrap ”dla uśredniania i wyboru modelu :

W tym sensie rozkład ładowania początkowego reprezentuje (przybliżony) nieparametryczny, nieinformacyjny rozkład boczny dla naszego parametru. Ale ten rozkład ładowania początkowego uzyskuje się bezboleśnie - bez formalnego określania wcześniejszego i bez konieczności pobierania próbki z rozkładu tylnego. Dlatego możemy myśleć o rozmieszczeniu paska ładunkowego jak o „Bayesie biednym”.

Marc Claesen
źródło
1
W jaki sposób wyjaśnienie „punktów dźwigni” dotyczy drzew, które są często zalecane do pakowania w worki? Choć jasne są, jakie są wysokie punkty dźwigni dla regresji liniowej, jakie są te punkty dla drzew?
DavidR
znalazłem inne odniesienie do tego pytania: quora.com/… co myślisz? czy to zaprzecza temu, że powiedziałeś, że nie zmniejsza teoretycznie wariancji?
Charlie Parker
Widziałem, że wikipedia mówi, że bagging (czyli agregacja bootstrapu) obniża wariancję. Jeśli nie ma na to teoretycznych dowodów, czy oznacza to, że artykuł jest błędny?
Charlie Parker
W większości przypadków workowanie ma mniejszą wariancję, ale nie jest to jego rzeczywisty mechanizm. Grandvalet pokazał przykłady, w których zwiększa wariancję, i pokazał, że mechanizm jest bliżej związany z wyrównaniem wpływu punktów danych, które silnie wpływają na model, takich jak wartości odstające w regresji metodą najmniejszych kwadratów, co w większości przypadków zmniejsza wariancję.
Marc Claesen,