Wydaje się, że aksjomatem stało się to, że grupa uczniów prowadzi do najlepszych możliwych wyników modeli - i coraz rzadziej na przykład pojedyncze modele wygrywają zawody takie jak Kaggle. Czy istnieje teoretyczne wyjaśnienie, dlaczego zespoły są tak skuteczne?
machine-learning
data-mining
predictive-modeling
Robert de Graaf
źródło
źródło
Odpowiedzi:
W przypadku konkretnego modelu podajesz dane, wybierz funkcje, wybierz hiperparametry itp. W porównaniu z rzeczywistością popełnia trzy rodzaje błędów:
Zespoły uśredniają liczbę tych modeli. Odchylenie wynikające z błędu próbkowania nie zostanie naprawione z oczywistych powodów, może naprawić niektóre odchylenie złożoności modelu, jednak popełniane błędy wariancji są bardzo różne w różnych modelach. Szczególnie słabo skorelowane modele popełniają bardzo różne błędy w tych obszarach, niektóre modele sprawdzają się dobrze w niektórych częściach przestrzeni obiektów. Uśredniając te modele, znacznie zmniejszasz tę wariancję. Właśnie dlatego zespoły lśnią.
źródło
Wybrana odpowiedź jest fantastyczna, ale chciałbym dodać dwie rzeczy:
źródło
Zespoły wygrywają w prognozach z powodów teoretycznych i praktycznych.
Istnieje podstawowa teoria optymalnego prognozowania, jeśli mamy na myśli przewidywanie następnego zdarzenia w sekwencji opartej na wiedzy o poprzednich zdarzeniach. Prognozowanie Solomonoffa (Solomonoff 1964) jest możliwe do udowodnienia pod wieloma względami, w tym, że „nauczy się poprawnie przewidywać dowolną obliczalną sekwencję z absolutnie minimalną ilością danych”. (Hutter, Legg & Vitanyi 2007) Predyktor Salomonoffa waży wszystkie programy zgodne z istniejącymi danymi, zgodnie ze złożonością programu Kołmogorowa i prawdopodobieństwem, jakie program przypisuje do danych do tej pory, łącząc Epicurean („zachowaj wszystkie teorie”) i Filozofie Ockhama („preferuj proste teorie”) w ramach Bayesa.
Optymalne właściwości prognozy Solomonoffa wyjaśniają solidne odkrycie, do którego się odwołujesz: uśrednianie modeli, źródeł lub ekspertów poprawia przewidywania, a uśrednione przewidywania przewyższają nawet najlepszy pojedynczy predyktor. Różne metody zespolone widziane w praktyce mogą być postrzegane jako obliczalne przybliżenia prognozy Solomonoffa - a niektóre takie jak MML (Wallace 2005) wyraźnie eksplorują więzi, choć większość tego nie robi.
Wallace (2005) zauważa, że predyktor Solomonoffa nie jest zbyt oszczędny - utrzymuje nieskończoną pulę modeli - ale większość mocy predykcyjnej nieuchronnie przypada na stosunkowo niewielki zestaw modeli. W niektórych domenach jeden najlepszy model (lub rodzina prawie nieodróżnialnych modeli) może odpowiadać za dużą część mocy predykcyjnej i przewyższa ogólne zestawy, ale w złożonych domenach z małą teorią najprawdopodobniej żadna rodzina nie wychwytuje większości prawdopodobieństwa a posteriori, dlatego uśrednianie względem prawdopodobnych kandydatów powinno poprawić przewidywania. Aby wygrać nagrodę Netflix, zespół Bellkor połączył ponad 450 modeli (Koren 2009).
Ludzie zwykle szukają jednego dobrego wyjaśnienia: w domenach „wysokiej teorii”, takich jak fizyka, działają one dobrze. Rzeczywiście, jeśli uchwycą leżącą u podstaw dynamikę przyczynową, powinny być prawie nie do pokonania. Ale tam, gdzie dostępne teorie nie pasują ściśle do zjawisk (powiedzmy, rekomendacji filmowej lub geopolityki), pojedyncze modele będą gorsze: wszystkie są niekompletne, więc żadna nie powinna dominować. Stąd niedawny nacisk na zespoły (do uczenia maszynowego) i Wisdom of the Crowds (dla ekspertów), a także sukces programów takich jak IARPA ACE, a zwłaszcza Good Judgement Project (Tetlock i Gardiner 2015).
Bibliografia
źródło