Dlaczego zespoły są tak nieracjonalnie skuteczne

14

Wydaje się, że aksjomatem stało się to, że grupa uczniów prowadzi do najlepszych możliwych wyników modeli - i coraz rzadziej na przykład pojedyncze modele wygrywają zawody takie jak Kaggle. Czy istnieje teoretyczne wyjaśnienie, dlaczego zespoły są tak skuteczne?

Robert de Graaf
źródło
1
Domyślam się, że to The Central Limit Theorem, ale nie mam uzasadnienia.

Odpowiedzi:

13

W przypadku konkretnego modelu podajesz dane, wybierz funkcje, wybierz hiperparametry itp. W porównaniu z rzeczywistością popełnia trzy rodzaje błędów:

  • Odchylenie (z powodu zbyt niskiej złożoności modelu, odchylenie od próbkowania danych)
  • Odchylenie (z powodu szumu w danych, przeładowania danych)
  • Losowość rzeczywistości, którą próbujesz przewidzieć (lub brak funkcji predykcyjnych w zbiorze danych)

Zespoły uśredniają liczbę tych modeli. Odchylenie wynikające z błędu próbkowania nie zostanie naprawione z oczywistych powodów, może naprawić niektóre odchylenie złożoności modelu, jednak popełniane błędy wariancji są bardzo różne w różnych modelach. Szczególnie słabo skorelowane modele popełniają bardzo różne błędy w tych obszarach, niektóre modele sprawdzają się dobrze w niektórych częściach przestrzeni obiektów. Uśredniając te modele, znacznie zmniejszasz tę wariancję. Właśnie dlatego zespoły lśnią.

Jan van der Vegt
źródło
6

Wybrana odpowiedź jest fantastyczna, ale chciałbym dodać dwie rzeczy:

  1. Zaobserwowano, że uśrednianie ludzkich prognoz daje lepsze prognozy niż jakakolwiek indywidualna prognoza. Jest to znane jako mądrość tłumu . Teraz możesz argumentować, że dzieje się tak, ponieważ niektóre osoby mają różne informacje, więc skutecznie uśredniasz informacje. Ale nie, dotyczy to nawet takich zadań, jak zgadywanie liczby ziaren w słoiku. Podejrzewam, że ma to związek z niektórymi z podanych powyżej przyczyn modeli eksploracji danych.
  2. Niektóre techniki, takie jak metoda rezygnacji z sieci neuronowych (gdzie w każdej iteracji podczas treningu używasz tylko fragmentu swojej sieci neuronowej) dają wyniki podobne do zbioru sieci neuronowych. Uzasadnieniem jest to, że skutecznie zmuszasz węzły do ​​wykonywania tej samej pracy predyktora co inne węzły, skutecznie tworząc meta-zestaw. Mówię to, aby podkreślić, że możemy być w stanie przedstawić niektóre zalety zestawów w tradycyjnych modelach.
Ricardo Cruz
źródło
6

Zespoły wygrywają w prognozach z powodów teoretycznych i praktycznych.

Istnieje podstawowa teoria optymalnego prognozowania, jeśli mamy na myśli przewidywanie następnego zdarzenia w sekwencji opartej na wiedzy o poprzednich zdarzeniach. Prognozowanie Solomonoffa (Solomonoff 1964) jest możliwe do udowodnienia pod wieloma względami, w tym, że „nauczy się poprawnie przewidywać dowolną obliczalną sekwencję z absolutnie minimalną ilością danych”. (Hutter, Legg & Vitanyi 2007) Predyktor Salomonoffa waży wszystkie programy zgodne z istniejącymi danymi, zgodnie ze złożonością programu Kołmogorowa i prawdopodobieństwem, jakie program przypisuje do danych do tej pory, łącząc Epicurean („zachowaj wszystkie teorie”) i Filozofie Ockhama („preferuj proste teorie”) w ramach Bayesa.

Optymalne właściwości prognozy Solomonoffa wyjaśniają solidne odkrycie, do którego się odwołujesz: uśrednianie modeli, źródeł lub ekspertów poprawia przewidywania, a uśrednione przewidywania przewyższają nawet najlepszy pojedynczy predyktor. Różne metody zespolone widziane w praktyce mogą być postrzegane jako obliczalne przybliżenia prognozy Solomonoffa - a niektóre takie jak MML (Wallace 2005) wyraźnie eksplorują więzi, choć większość tego nie robi.

Wallace (2005) zauważa, że ​​predyktor Solomonoffa nie jest zbyt oszczędny - utrzymuje nieskończoną pulę modeli - ale większość mocy predykcyjnej nieuchronnie przypada na stosunkowo niewielki zestaw modeli. W niektórych domenach jeden najlepszy model (lub rodzina prawie nieodróżnialnych modeli) może odpowiadać za dużą część mocy predykcyjnej i przewyższa ogólne zestawy, ale w złożonych domenach z małą teorią najprawdopodobniej żadna rodzina nie wychwytuje większości prawdopodobieństwa a posteriori, dlatego uśrednianie względem prawdopodobnych kandydatów powinno poprawić przewidywania. Aby wygrać nagrodę Netflix, zespół Bellkor połączył ponad 450 modeli (Koren 2009).

Ludzie zwykle szukają jednego dobrego wyjaśnienia: w domenach „wysokiej teorii”, takich jak fizyka, działają one dobrze. Rzeczywiście, jeśli uchwycą leżącą u podstaw dynamikę przyczynową, powinny być prawie nie do pokonania. Ale tam, gdzie dostępne teorie nie pasują ściśle do zjawisk (powiedzmy, rekomendacji filmowej lub geopolityki), pojedyncze modele będą gorsze: wszystkie są niekompletne, więc żadna nie powinna dominować. Stąd niedawny nacisk na zespoły (do uczenia maszynowego) i Wisdom of the Crowds (dla ekspertów), a także sukces programów takich jak IARPA ACE, a zwłaszcza Good Judgement Project (Tetlock i Gardiner 2015).

Bibliografia

  • M. Hutter, S. Legg i P. Vitanyi, „Prawdopodobieństwo algorytmiczne”, Scholarpedia, vol. 2, 2007, s. 1 2572.
  • Y. Koren, „The BellKor Solution to the Netflix Grand Prize”, 2009.
  • Solomonoff, Ray (marzec 1964). „Formalna teoria wnioskowania indukcyjnego, część I” (PDF). Informacje i kontrola 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
  • Solomonoff, Ray (czerwiec 1964). „Formalna teoria wnioskowania indukcyjnego, część II” (PDF). Informacja i kontrola 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
  • PE Tetlock, ekspert polityczny: jak dobry? Skąd możemy wiedzieć ?, Princeton University Press, 2005.
  • Tetlock, PE i Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Nowy Jork: Crown.
  • CS Wallace, wnioskowanie statystyczne i indukcyjne według minimalnej długości wiadomości, Springer-Verlag, 2005.
Ctwardy
źródło