Bootstrapping to dowolny test lub metryka, która polega na losowym próbkowaniu z zamiennikiem. Jest to metoda, która pomaga w wielu sytuacjach, takich jak walidacja wydajności modelu predykcyjnego, metody zespołu, oszacowanie odchylenia i wariancji parametru modelu itp. Działa poprzez wykonywanie próbkowania z zastępowaniem z oryginalnego zestawu danych, przy jednoczesnym założeniu, że punkty danych, które nie zostały wybrane, są zestawem danych testowych. Możemy powtórzyć tę procedurę kilka razy i obliczyć średni wynik jako oszacowanie wydajności naszego modelu. Ponadto, Bootstrapping jest powiązany z metodami szkolenia zestawu, ponieważ możemy zbudować model przy użyciu każdego zestawu danych bootstrap i „spakować” te modele do zestawu, używając większości głosów (do klasyfikacji) lub obliczając średnią (dla prognoz numerycznych) dla wszystkich te modele jako nasz końcowy wynik.
Krzyżowa weryfikacja to procedura sprawdzania poprawności działania modelu, która odbywa się poprzez podzielenie danych treningowych na k części. Zakładamy, że części k-1 są zestawem szkoleniowym, a drugą częścią jest nasz zestaw testowy. Możemy powtórzyć k razy inaczej, za każdym razem trzymając inną część danych. Na koniec bierzemy średnią z wyników k jako naszą ocenę wydajności. Weryfikacja krzyżowa może być obarczona błędem lub wariancją. Zwiększając liczbę podziałów, wariancja również wzrośnie, a odchylenie zmniejszy się. Z drugiej strony, jeśli zmniejszymy liczbę podziałów, odchylenie wzrośnie, a wariancja zmniejszy się.
Podsumowując, weryfikacja krzyżowa dzieli dostępny zestaw danych w celu utworzenia wielu zestawów danych, a metoda Bootstrapping używa oryginalnego zestawu danych do utworzenia wielu zestawów danych po ponownym próbkowaniu z zastąpieniem. Ładowanie początkowe nie jest tak silne, jak w przypadku sprawdzania poprawności krzyżowej, gdy jest używane do sprawdzania poprawności modelu. Bootstrapping polega bardziej na budowaniu modeli zespołów lub po prostu szacowaniu parametrów.
Christos Karatsalos
źródło
źródło